大型科技公司购买人工智能训练数据的地下竞赛_综合

　　纽约，美国——在21世纪初的鼎盛时期，Photobucket是世界上最顶级的图片托管网站。作为Myspace和Friendster等曾经炙手可热的服务的媒体支柱，它拥有7000万用户，占美国在线照片市场的近一半。

　　据分析跟踪公司Similarweb称，如今只有200万人仍在使用Photobucket。但生成式人工智能革命可能会给它带来新的生命。

　　这家位于科罗拉多州爱德华兹的公司有40多名员工，其首席执行官泰德·伦纳德(Ted Leonard)告诉路透社，他正在与多家科技公司进行谈判，希望获得Photobucket 130亿张照片和视频的授权，用于训练生成式人工智能模型，该模型可以根据文本提示生成新内容。

　　他说，他已经讨论过每张照片5美分到1美元之间的价格，以及每张视频1美元以上的价格，价格因买家和所寻求的图像类型而有很大差异。

　　伦纳德补充说:“我们已经和一些公司谈过，他们说，‘我们需要更多的视频。’有一个买家告诉他，他们想要超过10亿个视频，比他的平台上的视频还多。”

　　“你会挠头问，你从哪里弄来的?”

　　Photobucket以商业机密为由，拒绝透露潜在买家的身份。正在进行的谈判此前从未被报道过，这表明该公司可能坐拥价值数十亿美元的内容，并让人们得以一窥在急于主导生成式人工智能技术的过程中兴起的繁华数据市场。

　　与此同时，这些科技公司也在悄悄地为锁定在付费墙和登录屏幕后面的内容付费，从而产生了一种隐藏的交易，从聊天记录到早已被遗忘的个人照片，从褪色的社交媒体应用程序。

　　路透社采访了30多位了解人工智能数据交易的人士，包括相关公司的现任和前任高管、律师和顾问，首次对这个新兴市场进行了深入探索——详细介绍了购买的内容类型、实现的价格，以及人们对个人数据在人们不知情或未经明确同意的情况下进入人工智能模型的风险的担忧。

　　OpenAI、谷歌、meta、微软、苹果和亚马逊都拒绝就具体的数据交易和讨论发表评论，尽管微软和谷歌让路透社参考了包括数据隐私条款在内的供应商行为准则。

　　谷歌补充说，如果发现供应商存在违规行为，它将“立即采取行动，直至并包括终止”与供应商的协议。

　　许多大型市场研究公司表示，他们甚至还没有开始估计不透明的人工智能数据市场的规模，在这个市场上，公司往往不披露协议。Business Research Insights等研究机构认为，目前这一市场的规模约为25亿美元，并预计在10年内可能增长到近300亿美元。

　　生成数据淘金热

　　这些数据争夺战发生之际，大型生成式人工智能“基础”模型的制造商正面临越来越大的压力，需要对它们输入系统的大量内容进行解释，这一过程被称为“训练”，需要强大的计算能力，通常需要数月才能完成。

　　科技公司表示，如果他们不能使用大量免费抓取的网页数据档案，比如由非营利性存储库Common Crawl提供的那些，他们将其描述为“公开可用”，那么这项技术的成本将会过高。

　　尽管如此，他们的做法还是引来了一波版权诉讼和监管热潮，同时促使出版商在自己的网站上添加代码来阻止抓取。

　　作为回应，人工智能模型制造商已经开始对冲风险并确保数据供应链的安全，既通过与内容所有者达成协议，也通过新兴的数据经纪人行业来满足需求。

　　例如，据知情人士透露，在ChatGPT于2022年底推出后的几个月里，包括meta、谷歌(Google)、亚马逊(Amazon)和苹果(Apple)在内的公司都与图库提供商Shutterstock达成了协议，将其图库中的数亿张图片、视频和音乐文件用于培训。

　　Shutterstock首席财务官Jarrod Yahes告诉路透社，最初与大型科技公司的交易金额从2500万美元到5000万美元不等，但后来大部分都扩大了规模。他补充称，规模较小的科技公司也纷纷效仿，在过去两个月引发了新一轮“活动热潮”。

　　耶耶斯拒绝就个别合同置评。与苹果达成的协议以及其他交易的规模此前从未公开。

　　Shutterstock的竞争对手Freepik对路透社表示，该公司已与两家大型科技公司达成协议，以每张2至4美分的价格获得其2亿张图片的大部分授权。该公司首席执行长阿贝拉(Joaquin Cuenca Abela)说，还有五笔类似的交易正在筹备中，但他拒绝透露买家的身份。

　　OpenAI是Shutterstock的早期客户，它还与至少四家新闻机构签署了许可协议，其中包括美联社(The Associated Press)和阿克塞尔·斯普林格(Axel Springer)。路透社新闻(Reuters News)的所有者汤森路透(Thomson Reuters)表示，它已达成协议，授权新闻内容帮助训练人工智能大型语言模型，但没有透露细节。

　　“道德来源的内容”

　　一个由专门的人工智能数据公司组成的行业也正在兴起，它们确保了播客、短视频和与数字助理互动等现实世界内容的版权，同时还建立了短期合同工网络，从头开始制作定制的视觉和语音样本，类似于uber式的数据零工经济。

　　西雅图的定义。该公司首席执行官Daniela Braga告诉路透社，ai将数据授权给包括谷歌、meta、苹果、亚马逊和微软在内的一系列公司。

　　价格因买家和内容类型而异，但布拉加表示，公司通常愿意为每张图像支付1至2美元，为每张短视频支付2至4美元，为每小时的长视频支付100至300美元。她补充说，文本的市场价格是每字0.001美元。

　　她说，裸体图片需要最敏感的处理，售价在5到7美元之间。

　　定义的。布拉加表示，ai与内容提供商分享了这些收益。她补充说，该公司将其数据集营销为“道德来源”，因为它获得了使用其数据的人的同意，并删除了个人身份信息。

　　该公司的供应商之一、一位巴西企业家说，他向自己获取的照片、播客和医疗数据的所有者支付了交易总额的20%至30%。

　　这位供应商说，他的投资组合中最昂贵的图像是那些用于训练人工智能系统的图像，这些系统可以屏蔽科技公司禁止的暴力图像等内容。由于商业敏感性，这位供应商要求不透露他的公司的名字。

　　他说，为了满足这些要求，他主要从警察、自由摄影记者和医科学生那里获得犯罪现场、冲突暴力和手术的照片，这些照片通常来自南美和非洲的一些地方，在这些地方传播图像更为常见。

　　他说，自从去年10月加沙战争开始以来，他收到了来自加沙自由摄影师的照片，还有一些是敌对行动开始时来自以色列的照片。

　　他补充说，他的公司雇佣了习惯于看到暴力伤害的护士来对这些图像进行匿名化和注释，这些图像对未经训练的眼睛来说是令人不安的。

　　“我会觉得这很冒险”

　　许多接受采访的业内人士表示，虽然授权可以解决一些法律和道德问题，但重新启用Photobucket等旧互联网名称的档案，作为最新人工智能模型的燃料，会引发其他问题，尤其是在用户隐私方面。

　　人工智能系统曾被发现反讽其训练数据的精确副本，比如吐出盖蒂图片(Getty Images)的水印、《纽约时报》(New York Times)文章的逐字段落和真人图像。这意味着一个人几十年前发布的私人照片或私密想法，可能会在没有通知或明确同意的情况下，被人工智能输出。

　　Photobucket首席执行官伦纳德表示，他有坚实的法律依据，理由是该公司去年10月更新了服务条款，赋予其“不受限制的权利”，可以出售任何上传的内容，用于训练人工智能系统。他将授权数据视为销售广告的另一种选择。

　　“我们需要支付账单，这可以让我们有能力继续支持免费账户，”他说。

　　定义的。ai的布拉加说，她避免从像Photobucket这样的“平台”公司获取内容，而更喜欢从创作这些照片的网红那里获取社交媒体照片，她说这些网红对许可权有更明确的要求。

　　Braga在谈到平台内容时表示:“我认为这非常冒险。“如果有一些人工智能生成的东西类似于一个从未批准过的人的照片，那就是一个问题。”

　　Photobucket并不是唯一一个支持授权的平台。Tumblr的母公司Automattic上个月表示，它正在与“选定的人工智能公司”共享内容。今年2月，路透社报道称，Reddit与谷歌达成协议，将其内容用于训练后者的人工智能模型。

　　在今年3月首次公开发行(ipo)之前，Reddit披露，其数据许可业务正在接受美国联邦贸易委员会(Federal Trade Commission)的调查，并承认，它可能会违反不断完善的隐私和知识产权法规。

　　FTC曾在2月份警告企业，不要追溯性地改变人工智能使用的服务条款。该委员会拒绝就Reddit的调查置评，也拒绝透露它是否在研究其他培训数据交易。

• 达沃斯论坛正因无关紧要而走向消亡——所有珍视	• 软件分享“科乐麻将摸宝神器”真实开挂技巧分享
• 莱爱德药店六月将关闭近50家门店，完整名单出炉	• 软件分享“桂麻圈可以作弊吗”其实确实有挂安装
• 麻将软件分享“德扑之星辅助软件下载”开挂软件	• 社论：强制司法改革，四审制非为民设

格鲁吉亚不顾抗议通过	港口货运的半垃圾泵与
白宫，议员们在骄傲月