自从生成人工智能聊天机器人出现在互联网上以来,好莱坞作家就一直在想,他们的作品是否被用来训练它们。这些聊天机器人对电影的引用非常流利,公司似乎正在用所有可用的资源来训练它们。一位编剧最近告诉我,他看到生成式人工智能模仿了《教父》和20世纪80年代的电视节目《Alf》,但他没有办法证明一个程序是根据这些材料训练的。
我现在可以绝对自信地说,许多人工智能系统已经接受了电视和电影作家作品的训练。不仅是《教父》和《阿尔夫》,还有53000多部其他电影和85000多集其他电视剧:所有这些电影中的对话都被包含在一个人工智能训练数据集中,该数据集已被苹果、Anthropic、meta、英伟达、Salesforce、彭博社和其他公司使用。我最近下载了这个数据集,我在关于各种大型语言模型(或llm)开发的论文中看到了它。它包括从1950年到2016年获得最佳影片提名的每部电影的剧本,《辛普森一家》至少616集,《宋飞正传》170集,《双峰》45集,以及《火线》、《黑道家族》和《绝命毒师》的每一集。它甚至包括金球奖和奥斯卡颁奖典礼直播中预先写好的“现场”对话。如果一个聊天机器人可以模仿犯罪节目中的暴徒或情景喜剧中的外星人,或者更紧迫的是,如果它可以拼凑出整个节目,否则可能需要一屋子的作家,这样的数据就是原因之一。
确切地说,这个数据集中的文件不是脚本。相反,它们是取自一个名为OpenSubtitles.org的网站的字幕。该网站的用户通常使用光学字符识别(OCR)软件从dvd、蓝光光盘和互联网流中提取字幕。然后他们将结果上传到OpenSubtitles.org,该网站现在拥有超过100种语言和方言的900多万个字幕文件。虽然这看起来像是人工智能训练数据的一个奇怪来源,但字幕很有价值,因为它们是一种原始的书面对话形式。它们包含了口语对话的节奏和风格,并允许科技公司将生成式人工智能的曲目扩展到学术文本、新闻和小说之外,所有这些都被用来训练这些程序。在人工智能训练数据的世界里,写得好的演讲是一种罕见的商品,对于训练聊天机器人自然地“说话”来说,它可能特别有价值。
根据研究论文,这些字幕已经被Anthropic用来训练它的ChatGPT竞争对手Claude;通过meta来训练一个名为开放预训练变压器(OPT)的llm家族;由苹果公司培训一批可以在iphone上运行的法学硕士;由英伟达(Nvidia)培训NeMo Megatron法学硕士家庭。Salesforce、彭博社(Bloomberg)、EleutherAI、Databricks、Cerebras和其他各种人工智能开发人员也使用了它,在人工智能开发中心hug Face上构建了至少140个开源模型。这些模型中的许多都有可能被用来与人类作家竞争,而且它们是在未经作者许可的情况下建立的。
当我为这篇文章联系Anthropic公司时,该公司没有公开发表评论。当我之前与Anthropic谈论该数据集的使用时,一位发言人告诉我,该公司“在公共数据集the Pile上训练了我们的生成人工智能助手Claude”,open字幕是其中的一部分,“这在行业中是常用的”。Salesforce的一位发言人告诉我,尽管该公司在生成人工智能开发中使用了open字幕,但该数据集“从未用于通知或增强Salesforce的任何产品”。苹果公司同样告诉我,它的小型法学硕士课程仅用于研究。然而,与其他人工智能开发商一样,Salesforce和苹果都让他们的模型可供开发人员在任何不同的环境中使用。这篇文章中提到的所有其他公司——英伟达、彭博社、EleutherAI、Databricks和cerebras——要么拒绝置评,要么没有回应置评请求。
您可以使用下面的工具搜索数据集。
在ChatGPT发布两年后,创造性的作品被未经许可地用于推动人工智能产品,这可能并不奇怪。然而,这个概念仍然让许多艺术家和专业人士感到不安,他们觉得自己的手艺和生计受到了项目的威胁。透明度普遍较低:科技公司往往不会为他们使用谁的成果来培训产品做广告。关于受版权保护作品的培训的合法性也仍然是一个悬而未决的问题。作家、演员、艺术家和出版商对科技公司提起了大量诉讼,声称他们的版权在人工智能训练过程中受到了侵犯:正如《绝命毒师》的创作者文斯·吉利根(Vince Gilligan)去年写给美国版版局的信中所言,生成人工智能相当于“一种极其复杂、耗费大量精力的抄袭形式”。科技公司认为,用受版权保护的作品训练人工智能系统是“合理使用”,但法院尚未对这一说法做出裁决。在版权法的语言中,字幕很可能被视为衍生作品,法院通常会认为它们受到与电影相同的禁止复制和发行规则的保护。open字幕数据集自2020年以来一直在人工智能开发者之间流传。它是Pile的一部分,Pile是用于训练生成式人工智能的数据集集合。该文件还包括书籍文本、专利申请、在线讨论、哲学论文、youtube视频字幕等。对于公司来说,这是一种开始构建人工智能系统的简单方法,而无需查找和下载法学硕士所需的大量高质量文本。
任何人都可以下载open字幕,但与大多数人工智能训练数据集一样,要理解其中的内容并不容易。这是一个14gb的文本文件,其中有几行未署名的对话,这意味着说话人没有被识别出来。没有办法知道一部电影在哪里结束,下一部电影在哪里开始,更不用说电影是什么了。我下载了数据集的“原始”版本,其中电影和剧集被分成446612个文件,并存储在文件夹中,这些文件夹的名称与IMDb.com上列出的电影和剧集的ID号相对应。大多数文件夹都包含同一部电影或电视剧的多个字幕版本(不同的版本可能会以不同的方式进行调整),但我能够识别出至少13.9万部独特的电影和剧集。我从OpenSubtitles.org网站下载了与每个标题相关的元数据——例如,允许我将演员和导演映射到每个标题——并使用它构建上面的工具。
open字幕数据集为围绕人工智能的复杂叙事增添了另一个波澜,在这种叙事中,艺术家的同意,甚至技术的基本前提都是争论的焦点。直到最近,没有一个在剧本上动笔的作家会想到,他们的创造性工作可能会被用来训练可以取代他们的程序。而且字幕本身最初也不是为了这个目的而设计的。多语言open字幕数据集包含62种不同语言的字幕和1782种语言对组合:它旨在训练谷歌Translate和DeepL等应用程序背后的模型,这些模型可用于翻译网站、外国的街道标志或整本小说。J?rg Tiedemann是数据集的创建者之一,他在一封电子邮件中写道,他很高兴看到open字幕也被用于法学硕士的开发,尽管这不是他的初衷。
无论如何,他无力阻止这一切。字幕在网上,没有人知道它们被用于多少独立的生成人工智能程序,也没有人知道这些程序产生了多少合成文字。但现在,至少,我们对谁被困在机器里有了更多的了解。世界将如何判断他们的亏欠?