查看原文
其他

大模型闹“数据饥荒”,科技巨头进入灰色地带

陈斯达 智能涌现
2024-08-22

文|陈斯达

编辑|邓咏仪

封面来源|视觉中国

大模型对数据的胃口,像无底洞。为了“炼”出更好的大模型,科技巨头们现在八仙过海,不惜各出“阴招”。

纽约时报在4月6日发布了一篇重磅长篇调查报道,其中显示:OpenAI此前收集了超过100万小时的YouTube视频,将其中音频转录成文本,喂给GPT-4 进行训练。

OpenAI用的是自家开发的音频转录工具,叫Whisper。但在这项工作上,Whisper多了一层含义——悄悄地转录,打枪的不要。


△图源:视觉中国

别忘了,OpenAI首席技术官Mira Murati,在3月时还不能交代清楚Sora的训练数据来源。无论是文字转录,还是视频内容的爬取,YouTube都明令禁止。

底线一次次被试探,还要继续忍吗?

据彭博社4月5日消息,YouTube首席执行官Neal Mohan又点名OpenAI——虽然还没证据表明,你们给Sora喂了油管视频,要是真这么干的,可就违规了!

但YouTube的遭遇,只是大模型数据之争的冰山一隅。

为了数据,一招更比一招坏

各家硅谷巨头正在寻求捷径,不惜进入灰色地带。

YouTube敢叫板OpenAI,但也给金主爸爸谷歌台阶下。前述采访中,Mohan不忘补刀:我们家谷歌确实也用YouTube内容训练大模型Gemini,但和你们不一样,视频博主都给了授权。

可以说谷歌“近水楼台先得月”,但补的这一刀,谷歌不一定开心。

据纽约时报,在谷歌给自己自身制定的规则,能否利用YouTube用户数据在视频平台之外开发商业服务(比如大模型 Gemini),并未完全解释清楚。

同样的,谷歌旗下的APP家族,含有数十亿英文单词的语料,取之不尽用之不竭——如公开上传的Google文档,用户在Google地图上的打卡评论。但谷歌只能干瞪眼,因为自己定的规定,限制了这些数据的使用方式。


△图源:视觉中国

养了这么久的用户,谷歌早就抓心挠肝了。2023年7月,谷歌修改隐私政策,扩大应用程序的数据使用范围,以便“(训练)人工智能模型以及开发类似Google翻译、Bard和Cloud AI的功能”。但官方解释,不会“未经用户明确许可”用数据训练大模型。

所以,当谷歌员工知道OpenAI偷偷用YouTube视频训练模型,并没有选择曝光。

此时在大模型竞争稍显落后的Meta,数据焦虑更强烈。

据纽约时报,内部员工表示,Meta并没有太多用户帖子文本,可用于模型训练。Facebook上,很多用户已经删掉之前的帖子,平台本身也并非定位于长内容。Meta的AI团队,几乎使用了网上所有可用的英语书籍、论文、诗歌和新闻文章来训练模型。

纽约时报在报道中还介绍,2023年3月到4月期间,Meta高层急得每天都要开会想办法,讨论怎么搞到有版权的内容:有的法子能说,比如收购Simon & Schuster出版社;有的不方便说,比如冒着吃官司的风险,在网上收集有版权的文本。

科技公司们的数据需求如此旺盛,一些内容平台正因此迎来第二春。

据路透社,图像托管网站的Photobucket曾有7000万用户,近来降到只有200万。但现在,这家公司库存的130亿份照片和视频,正吸引多家科技公司前来洽谈价格,希望授权用于模型训练。

首席执行官Ted Leonard介绍价格区间,单张照片5美分到1美元之间格,单个视频超过1美元。

“数据燃料”或许昂贵,总比事后吃官司要强。2023年2月,摄影社Getty Images起诉AI初创公司Stability AI,称其AI创作工具Stable Diffusion 已经窃取了超过1200万张受版权保护的照片,Stable Diffusion可能要付出1.8万亿美元的代价。

而Getty Images此前已与其他AI创作工具达成合作,这更加聚焦了Stability AI未经许可、没有付费的事实。

由于AIGC侵权案件十分前沿,业内人士指出,案件可能会持续几年时间。

只有创作者受伤的世界,完成了?

AI的胃口比想象的大,数据使用入不敷出。据研究机构Epoch AI,可用于训练的高质量文本,很可能会在2026年耗尽。

在Scaling Law的游戏法则下,科技公司不进则退,害怕被甩在身后。他们努力挖掘各种机会,盘活各大平台上一切有价值的数据。但内容原创方不干了——这一矛盾自ChatGPT、AI文生图、AI图生图走红后,就一直存在(见智能涌现文章 被AI夺走工作的人,决定反抗AI | 智涌深度)。

最新的争论则来自最近红遍全球的AI音乐生成模型Suno,让“人人都能发专辑”。4月2日,200多名国际乐坛知名音乐人如Billie Eilish, Nicki Minaj等,联署公开信,矛头指向大公司——不经过作者允许,就将作品喂给大模型进行训练。

音乐人还表示,“若使用时不负责任,AI将不仅使我们难以保护自己的隐私、身份和音乐作品,也将难以维持生计。”

观察一下AI音乐生成模型Suno V3,或许你会明白音乐人的怒火。据滚石杂志,Suno的投资人Rodriguez很早之前就已充分了解过风险,即唱片公司和发行商可能会提起诉讼。可以说,很早就做好了打官司的准备……


△图源:Suno官网

Suno至今也未公布模型训练使用的数据来源,不过有一个初步的姿态:不允许用户在提示中指定任何特定艺术家的风格,同时也不会使用真实艺术家的声音。但这样战术上的掩盖,很难让人满意。

在这场“人机大战”中,创作者们不应该只是机构之外的“沉默的大多数”。在美国,版权法为艺术家和音乐唱片公司提供保护,但AI生成的内容,并不直接挪用艺术家创作的歌词或旋律,而仅仅是“模仿(mimic)”。创作者们正在遭遇新的侵权,旧的法律无法成为他们的坚强后盾。

据CNBC,当地时间3月21日,美国田纳西州率先通过立法,以“保护歌曲作者、表演者和音乐行业专业人士的声音免受人工智能滥用”。这部《确保相似语音和图像安全(ELVIS)法案》,将于7月1日生效。

当然,如果双方能良性共存,何乐而不为呢?3月,OpenAI 首席执行官Sam Altman在访谈中曾回应模型训练时的公平性问题。他希望,为创造有价值数据的人,创造一套激励机制。他说:

如果我是艺术家,一是希望可以选择,让别人不使用我的风格来创作艺术作品。二是如果确实用了我的风格来创作,希望能有一套经济模式,确保满足我在中间的利益。

但就具体方案,Sam Altman没说,其他AI公司也不知道。

合成数据是现在比较主流的可行方向:把AI生成的数据再喂给AI,用合成数据(synthetic data)进行训练。

据纽约时报,OpenAI和其他公司正在探寻的数据生成模式便是,两个不同的大模型搭配干活,一个生产数据,一个检查数据,以此保证数据质量。只要判断数据的大模型做得足够好,这个法子就能走通。

2023年5月,AI初创公司Anthropic介绍的“宪法AI(Constitutional AI)”训练方法,便是这一逻辑。

△图源:论文

不过,用合成数据训练的还仅限于头部的几家AI公司,目前还没有被广泛应用。而创作者们的斗争,也还有很长的路要走。

👇🏻 扫码加入「智涌AI交流群」👇🏻

36氪旗下AI公众号
👇🏻 真诚推荐你关注 👇🏻


继续滑动看下一个
智能涌现
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存