「弱智吧」被中科院认证为最佳中文AI训练库!帖子秒杀百科/知乎/豆瓣/小红书?
wuhu专题
文|山茶茶
离大谱了,百度“弱智吧”竟然登上了正经AI论文,还被被中科院等高校评为高质量中文数据集。
没错,你没看错,这个弱智吧就是那个能问出:
生鱼片是死鱼片。
等红灯是在等绿灯。
救火是在灭火。
指南针主要是指北。
生蚝煮熟了叫什么?
用安全帽打人安全吗?
午餐肉可以晚上吃么?
万能胶能不能粘住不粘锅?
玉皇大帝住的是平流层还是对流层?
变形金刚买保险是买车险还是人险?
为什么学校只有保卫处,没有进攻处?
既然台上一分钟,台下十年功,那为什么不直接在台上练功?
......
等一系列炸裂问题的存在。
而这篇论文得到的结果竟然是,“弱智吧帖子合集”直接秒杀了豆瓣、知乎、小红书、维基百科,甚至是学者们精心收集挑选的数据集。
用了弱智吧的数据集之后,预训练模型在问答、头脑风暴、分类、生成、总结、提取等10项成绩里,有8项排名第一,总分更是断层冠军。
而最离谱的是,从来不交流代码的弱智吧仅靠网友们的逻辑性问答就让AI代码能力也排在了第一,给吧友们都整不明白了。
这可真是,大智若智了啊......
弱智吧登上中科院论文
这篇论文来自于中科院深圳先进技术研究院、中科院自动化研究所、滑铁卢大学等众多高校、研究机构的联合团队,这阵容可以说很有含金量了。
论文被吧友们发现之后,作者之一甚至现身评论区,透露使用弱智吧数据属于是灵机一动,以前只是用来测试。
但到底是什么测试,为啥偏偏弱智吧跑分遥遥领先?咱们还得来看看这篇论文。
论文名叫《COIG-CQIA:Quality ia All You Need for Chinese Instruction Fin-turing》,大意是《搞微调,还得拼质量》。
我们都知道,大模型训练中,中文数据集多多少少有点问题:
要么是英文派生的,不能很好地契合中文语言习惯和文化背景;要么脱离实际,质量难以保证;再就是数据量小、覆盖领域不全面等等。
为了解决这些问题,研究团队推出了一个COIG-CQIA中文指令微调数据集,数据取自中文互联网上各种高质量数据源,包括维基百科、各类问答社区、高考/中考/研究生考试、现有NLP数据集等,而这里面就包括了弱智吧。
论文中对弱智吧的定义:弱智吧是百度贴吧的子论坛,是一个基于兴趣的社区论坛。其帖子经常包含双关语、多义词、因果颠倒和同音词,其中许多都设计有逻辑陷阱,甚至对人类也构成挑战。
团队收集了500个点赞最多的帖子,并从标题出发排除出了非指导性(即声明性陈述或无法回答)的内容,再由人类或GPT-4来回答这些问题。经人工审核,最终留下了240组数据对。
然后把各类不同的数据源分别用在零一万物Yi系列模型上,来讨论它们对模型性能的影响。
其中,在Yi-34B模型上,纯弱智吧版本数据集表现一骑绝尘。
在开放式问答、头脑风暴、分类、生成、总结、封闭式问答、 提取、代码这8个项目下都拿到了最高分,另外2项改写和数学的成绩也都比较靠前。
甚至在后续安全性评估上,弱智吧版本也名列前茅。
而反观我们熟知的其它数据源平台,知乎均分第二,虽远不如弱智吧的76.9总分,但在数学上却略胜一筹。
豆瓣均分第四,在改写和总结两部分尤其拉胯;
小红书遥遥落后,直接拿下倒第二,各科里比较突出的是头脑风暴和数学。
对此,研究团队给出了简单的猜测:
有趣的是,弱智吧在所有子集中平均排名第二。我们推测这是因为它可以增强模型的逻辑推理能力,从而有利于大多数指令跟踪任务。
当然了,这次实验最大的意义还是在于COIG-CQIA数据集为自然语言处理(NLP)社区带来的启发,给中文大模型的开发提供了帮助。
弱智吧 AI届唯一真神
咱先不说研究团队怎么想到用弱智吧数据测试AI的,反正这波倒反天罡的操作可是给网友带来了不少乐子:
当然也有老哥理智分析:
简单的说,就是弱智吧无厘头的外表下,简洁准确的用词和各种臻入化境的中文逻辑陷阱,给已经具备基础功能的预训练模型增加了指令多样性,提升了最终性能。
一夜之间,弱智吧火到AI圈,不少网友开始用弱智吧段子来拷打自家AI小同志。
而题目嘛,当然是千奇百怪,就算是真人看见了都得被硬控一分钟。
你以为到这里就结束了么?并不!
借着这波热度,弱智吧还推出了AI玩法......
这下,我好像完全理解为什么弱智吧被称为“AI届的唯一真神了”......
END
添加wuhu小精灵5号微信(wuhudonghua5)发送“动画新势力”即可在不久后被邀请进群。
你一定还感兴趣:
中国台湾学生用AI在画展夺冠?惹怒主办方遭撤奖、被记过…
喜欢的小伙伴们多多支持哟~