OpenAI用“贴吧”语料喂ChatGPT，网友表示非常嫌弃，研究人员：年少不知“贴吧”好

Original 陈斯达智能涌现

2024-08-22

文｜陈斯达

编辑｜李然

封面来源｜视觉中国

“美国贴吧”要把自家数据喂给ChatGPT了。

5月17日，据官方消息，Reddit 已与 OpenAI 达成协议，允许其使用自家内容训练聊天机器人及其他产品。合作宣布后，Reddit股价在盘后交易中上涨11%。

合作的互利共赢，OpenAI在官网中有所介绍：

OpenAI能用上Reddit的实时内容：自家AI 工具由此能够更好地理解和展示 Reddit 上最新话题的内容，因为OpenAI可访问得Reddit数据 API，将提供实时的、结构化的、独特的内容。
Reddit能用上OpenAI的AI技术：Reddit 将建立在 OpenAI 的 AI模型平台上，将使Reddit为redditor和 mod带AI驱动的全新功能。
最后，OpenAI将成为Reddit的广告合作伙伴。

OpenAI的首席执行官Sam Altman持有Reddit 8.7%的股份，此前还是Reddit的董事会成员。所以OpenAI为了避嫌，强调此次合作是“由OpenAI的首席运营官（Brad Lightcap）领导”，并“由（OpenAI）独立董事会批准”。Altman作为OpenAI董事会成员，据TechCrunch，本人在此次决定上采取回避姿态。

此次合作的梗图诞生：Altman这一出，属于是左手倒右手，一看都是自家人。

我想知道这次合作具体怎么谈成的。

很多网友似乎不太理解Reddit内容对于大模型的价值，纷纷表示Reddit会让ChatGPT变得“不干净”。

熟悉“贴吧”内容调性的网友们马上炸开了锅，有人马上弃坑：Claude不比你GPT香？

大本营Reddit平台上的悲观发言：把各位贴吧老哥的发言喂给大模型，AGI的进展立马倒退四年：

OpenAI的模型要用贴吧上科技板块的数据训练，看来对AGI出现要往后推四年了。

有人也不明白了：Reddit至于那么差吗？

只有我比较开心？Reddit上有用的内容也不少，如果能用AI查询，岂不美哉？

殊不知，前有论文证明“弱智吧”内容才是AI中文语料质量的高地，这波属于是网友信不过OpenAI技术大拿们的眼光了。

△来源：论文

用平台数据拓宽收入渠道，曾遭大规模抵制

成立于2005年的Reddit，于2024年3月上市，目前并不盈利。据其最新介绍，Reddit日活跃用户为8270万。据Techcrunch，Reddit的平台帖子超10亿个，评论数超160亿条，用户生成的内容每天还在增长。平台也可以被看做AI公司训练模型的“金矿”。

此次合作也说明，Reddit依然在尝试不同业务，不希望过于依赖于广告收入。

OpenAI、谷歌等公司将Reddit的数据用于自家模型训练后，Reddit不甘“白嫖”，2023年6月，Reddit宣布将对开发人员访问其API收取高额费用。其对每5000万个API请求收取12000 美元的费用，在业内定价已经很高。

大树底下不能乘凉了。靠着Reddit发家的各种第三方应用及个人开发者没法挣钱，Reddit社区自此开启一场声势浩大的抗议。在海量用户的自发组织下，在6月12日开始瘫痪。超过8000个版块（类似于微博、贴吧的不同话题）都被版主设置成了“私人版块”，其他用户无法访问。

△来源：The Verge

这场利益没有对齐的抗议很快又被自发终结。仅仅过了两天，大部分版块恢复运营。用户找不到平替之前，还得接着用Reddit。

Reddit官方下场“反白嫖”的最终目的很快落地——用平台内容向大模型公司收费。

2024年3月上市前，Reddit与谷歌母公司Alphabet还达成每年价值约6000万美元的交易，允许自家内容用于谷歌模型的训练。5月早些时候，Reddit公布的首份季报中，收入超过分析师预期。这表明，Reddit与谷歌的交易及其推动广告业务增长的努力，正在得到回报。

△来源：路透社

为什么各家大模型公司都在抢着给Reddit送钱，真的找不到更好的语料吗？

数据“掘金”的终点，难道是贴吧？

OpenAI掌门人Altman最近在播客中提到，模型未来的进步，不应该依赖数据。但就目前阶段来说，数据仍然是当下各大玩家的必争资源。

根据大模型的尺度法则，即便模型参数和算力都不断提高，但是数据量和质量如果停滞不前，模型的性能也很难持续进步（见智能涌现文章，大模型闹“数据饥荒”，科技巨头进入灰色地带）。

3月在英伟达GTC大会上，黄仁勋对话Transformer七子时也有观点认为：高质量的模型需要的其实是高质量的数据，一味堆量是不够的。

外国网友还在担心，把过于负面的Reddit“贴吧语料”喂给AI会不会适得其反；中文互联网上，最好的大模型语料库真的就是贴吧——弱智吧。

这个结论来自三月底发布的一篇论文。研究团队发现，大语言模型目前能理解、执行复杂指令，回答也能做到准确流利。然而这些进步基本都发生在英语世界，中文大模型的若要进步，就需要基于独特的语言特征和文化深度，找到合适的数据集。

研究看中了各类中文社交媒体、论坛的语料质量。论文不仅打造了中文指令微调数据集COIG-CQIA，还为后续从中文互联网选择训练数据提供了参考。

论文作者从微博，知乎，豆瓣，小红书等主流的社区论坛中抽取了大量的语料进行综合，提出了COIG-CQIA数据集。而在这个过程当中，研究人员对这些社交平台上的语料进行了一个排名。

经过比较，弱智吧数据集在多个子集上的平均排名中最终位居第二。

弱智吧的内容有那么神？有网友整理过弱智吧的经典发言：

每个人工作都想赚钱，那么是谁在亏钱？
我闭上眼睛触碰星空，阅读宇宙留给我的盲文。
世界是个大象，我们都在盲人摸象，抽象是对这个世界的鞭挞。
雨天，我走进水坑里，不小心踩碎了天空。
生鱼片是死鱼片。
有的人看不到未来，其实是看到了未来。
夜里很安静，我打开了收音机录下来，等白天吵闹的时候播放。

论文介绍，弱智吧的帖子充满双关语、多义词、因果倒置、同音异义词。有些逻辑陷阱人类看了都汗流浃背，对AI来说，那必须是增强模型逻辑推理能力的绝佳养料。

虽然互联网社区的语料对于AI来说养分可能确实充足，但是网友们对于社区直接将自己贡献的内容拿去卖钱，却不一定乐意。

Stack Overflow是面向程序员及开发人员的论坛。2024年5月初也与OpenAI合作为模型训练提供数据。一些用户为了表示不满，删除或者编辑自身问题和答案，避免被用于训练AI，但Stack Overflow恢复了被删的帖子，封禁了对应的账号。

有网友分享怎样把自己的高赞经验帖编辑为抗议帖的方法，并表示，“（版主的镇压）也是在提醒大家，在平台上发布的任何内容都能用于盈利目的。在 Discord、Twitter 等平台上的所有消息，早晚也要被抓取投喂给模型，最后再把相应AI服务售卖给你。”

但与Stack Overflow相比，Reddit的各路网友暂时没有用删帖表示反抗，转而心疼起AI：孩子，吃点好的吧。

A：之前有人担心：把整个互联网喂给AI，AI会让人类灭亡
B：我不认为现在这是玩笑了。
C：这就是为什么我的网络发言如此愚蠢。我其实很聪明（聪明一词拼写错误）！
D：你拯救了人类！

👇🏻 扫码加入「智涌AI交流群」👇🏻

36氪旗下AI公众号

👇🏻 真诚推荐你关注 👇🏻

继续滑动看下一个

智能涌现

向上滑动看下一个

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

OpenAI用“贴吧”语料喂ChatGPT，网友表示非常嫌弃，研究人员：年少不知“贴吧”好

用平台数据拓宽收入渠道，曾遭大规模抵制

数据“掘金”的终点，难道是贴吧？

您可能也对以下帖子感兴趣

宾曰语云被法学教授投诉：严重侵权，“违法犯罪”！

京东Plus的隐藏特权，很多会员都没领取，白交了会员费...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

“上海王”柯庆施之死的真相

毕业论文辅导| 你又不是伞，硕士论文|毕业论文|博士论文|课题论文不行就被硬撑了,靠谱的辅导机构才是晴雨伞！

生成图片，分享到微信朋友圈

OpenAI用“贴吧”语料喂ChatGPT，网友表示非常嫌弃，研究人员：年少不知“贴吧”好

用平台数据拓宽收入渠道，曾遭大规模抵制

数据“掘金”的终点，难道是贴吧？

您可能也对以下帖子感兴趣