ChatGPT是数据隐私的噩梦如果你曾经在网上发过帖子，你一定很担心_资讯

我在这里。你真的，像许多其他发布原创内容的网站所有者一样，遭受网站刮刮器的折磨，比如机器人未经许可复制我们的帖子。事实证明，ChatGPT大规模地参与了这种类型的盗窃。

也许我们应该叫它CheatGPT。

作者:悉尼大学商业信息系统教授Uri Gal。原载于The Conversation

ChatGPT已经风靡全球。在发布后的两个月内，它的活跃用户就达到了1亿，成为有史以来增长最快的消费应用程序。用户被该工具的先进功能所吸引，同时也担心它可能在各个领域造成严重破坏。

较少讨论的影响是ChatGPT给我们每个人带来的隐私风险。就在昨天，谷歌发布了自己的对话式人工智能，名为Bard，其他公司肯定会效仿。致力于人工智能的科技公司确实在进行一场军备竞赛。

问题是，它是由我们的个人数据提供的。

3000亿字。你有多少人?

ChatGPT支持一个需要大量数据来操作和优化的大型语言模型。训练模型的数据越多，它就越能发现模式，预测接下来会发生什么，并生成合理的脚本。

ChatGPT背后的OpenAI公司已经向该工具提供了系统地从互联网上提取的约3000亿字:书籍、文章、网站和出版物——包括未经同意获得的个人信息。

如果你曾经写过一篇博客文章或产品评论，或者评论过一篇在线文章，ChatGPT很有可能使用过这些信息。

那么为什么这是个问题呢?

用于训练ChatGPT的数据收集是有问题的，原因有几个。

首先，没有人问我们OpenAI是否可以使用我们的数据。这显然是对隐私的侵犯，尤其是当这些数据很敏感，可能被用来识别我们、我们的家庭成员或我们的位置时。

即使数据是公开的，它的使用也会违反我们所说的上下文完整性。这是有关隐私的法律讨论的基本原则。要求个人信息不得在其最初产生的环境之外披露。

此外，OpenAI没有为个人提供检查其个人信息是否被公司存储或要求删除的程序。根据欧洲通用数据保护条例(GDPR)，这是一项有保障的权利，尽管仍有争论ChatGPT是否符合GDPR的要求。

这种“被遗忘的权利”在信息不准确或具有误导性的情况下尤其重要，这似乎是ChatGPT经常发生的情况。

此外，训练ChatGPT的令牌数据可以是专有的或受版权保护的。例如，当我要求它时，这个工具产生了约瑟夫·海勒的《第二十二条军规》的前几个片段——一个受版权保护的文本。

最后，OpenAI没有为从互联网收集的数据付费。制作视频的个人、网站所有者和公司没有得到补偿。考虑到OpenAI最近估计价值290亿美元，比2021年的价值翻了一番多，这一点尤其值得注意。

OpenAI还刚刚发布了ChatGPT Plus，这是一个付费订阅计划，为客户提供持续使用工具、更快的响应时间和优先访问新功能的机会。到2024年，该计划将为预计收入贡献10亿美元。

如果没有未经我们允许而被收集和使用的数据——我们的数据——这一切都不可能发生。

脆弱的隐私政策

其他隐私风险包括以用户声明形式提供给ChatGPT的数据。当我们要求该工具回答问题或执行任务时，我们可能会无意中交出敏感信息并将其置于公共领域。

例如，律师可能要求该工具检查一份离婚协议草案，或者程序员可能要求该工具检查一段代码。约定和代码以及生成的文章现在都是ChatGPT数据库的一部分。这意味着它们可以用于工具的进一步培训，并包括在对其他人提示的响应中。

此外，OpenAI还收集了广泛的其他用户信息。根据公司的隐私政策，它会收集用户的IP地址、浏览器类型和设置，以及与用户与网站互动相关的数据——包括用户与之互动的内容类型、他们使用的功能以及他们采取的行动。

它还会收集用户在不同时间和不同网站上的浏览活动信息。值得关注的是，OpenAI声明，它可能会与身份不明的第三方共享用户的个人信息，而不通知他们，以促进他们的商业目标。

是时候采取行动了吗控制它?

一些专家认为ChatGPT是人工智能的一个转折点——实现了技术发展，可以彻底改变我们工作、学习、写作甚至思考的方式。尽管OpenAI有潜在的好处，但我们必须记住，OpenAI是一家以盈利为目的的私营公司，其商业利益和必要性不一定与更大的社会需求一致。

与ChatGPT相关的隐私风险应该作为一个警告。作为越来越多人工智能技术的消费者，我们必须非常小心我们与这些工具共享的信息。

的有限公司nconversation联系了OpenAI寻求评论，但他们在截止日期前没有回复。

信息源:

ChatGPT是数据隐私的噩梦如果你曾经在网上发过帖子，你一定很担心