谷歌的一组研究人员公布了一种针对ChatGPT的新攻击,表明OpenAI的热门人工智能聊天机器人将泄露真人的个人信息。
支持ChatGPT的底层机器学习模型,就像所有所谓的大型语言模型(llm)一样,是通过从互联网上抓取的大量数据进行训练的。在人类的训练和强化下,该程序理想地生成了新的文本串,而不会大量生成它所摄取的任何原始文本。先前的工作已经表明,图像生成器可以强制从训练数据(包括版权作品)中生成示例,并且早期的OpenAI LLM生成了属于研究人员的联系信息。但谷歌的新研究表明,ChatGPT这个拥有数百万用户的广受欢迎的消费者应用程序也可以做到这一点。
令人担忧的是,一些提取的训练数据包含了真实人物的识别信息,包括姓名、电子邮件地址和电话号码。
研究人员在他们的论文中写道:“仅使用价值200美元的ChatGPT (gpt-3.5- turbo)查询,我们就能够提取超过10,000个唯一的逐字记忆训练示例。”该论文于周二在线发表在arXiv预印本服务器上。“我们对更大预算的推断(见下文)表明,专门的对手可以提取更多的数据。”
研究人员发现的攻击依赖于找到让聊天机器人出错并迫使其泄露训练数据的关键字。人工智能聊天机器人的内部工作原理通常是不透明的,例如,独立研究人员早期的研究发现,特定的短语可能会导致聊天机器人完全失败。谷歌的研究人员专注于让ChatGPT无限地重复某些单词,例如,单词“poem”。目标是使ChatGPT“偏离”其作为聊天机器人的训练,并“回归到其原始语言建模目标”。虽然由于这种对抗性提示而生成的大部分文本都是无意义的,但研究人员报告说,在某些情况下,ChatGPT会直接从训练数据中复制输出。
研究人员提取的记忆数据包括学术论文和网站上的样板文本,以及几十个真实个体的个人信息。“总的来说,我们测试的世代中有16.9%包含记忆PII(个人识别信息),而包含潜在PII的世代中有85.8%是实际PII。”研究人员通过汇编他们自己从互联网上提取的文本数据集来证实这些信息是真实的。
值得注意的是,这次攻击针对的是GPT 3.5 AI模型,该模型可供免费用户使用。另一种型号GPT-4可供订阅用户使用。Motherboard在GPT-3.5上测试了“诗”攻击,发现它生成了一串不相关的文本,尽管我们没有在网络上其他地方找到它。当GPT-4被要求永远重复“诗”这个词时,它基本上拒绝了。
研究人员在一篇博客文章中指出,“OpenAI表示,每周有1亿人使用ChatGPT。因此,可能有超过10亿人与这个模型进行了互动。而且,据我们所知,在本文之前,没有人注意到ChatGPT以如此高的频率发射训练数据。因此,语言模型可能存在这样的潜在漏洞,这令人担忧。”
OpenAI没有立即回复置评请求。