清华女神，34岁的美女博士县长，辞职了

薄公子低调成台湾女婿 23日已在台举办婚礼

警察殴打打人学生，舆论撕裂的背后

你手放哪呢，出生啊

故宫蛇年限定款藏书票，错过再等12年！

弱智吧：AI 届的唯一真神，语料比知乎、豆瓣、小红书都强！

Original 金色传说大聪明赛博禅心

2024-08-23

先来回答 3 个问题：

万能胶能不能粘住不粘锅？
把变色龙扔彩虹糖里会怎么样？
为什么学校有保卫处，没有进攻处？

这些问题都来自弱智吧，一个被忽略的语料宝库。

高质量的语料

这两天出现了一篇有趣论文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》，大意是《搞微调，还得拼质量》。

我们都知道，在大模型训练中，我们的中文数据集多多多多多多多多多多多多多多少少有点问题：要么是英文派生的，要么是脱离实际的，加之中华文化的博大精深和一些都知道的原因，共同造就了优质数据的匮乏。

方法总比困难多，研究团队推出了一个名为 COIG-CQIA 中文指令微调数据集，其取自我们通常认为的高质量数据源，如问答社区、维基、考试和现有的自然语言处理（NLP）数据集。当然，这里还包括「弱智吧」。

之后，研究人员用这些数据集来调教 Yi-6B，再通过 BELLE-EVAL 使用 GPT4 进行评估，得出结论：「弱智吧」的出品遥遥领先，远超过一切其他网络媒体（如：知乎）

不仅是性能，在之后的 SafetyBench 安全测试中，「弱智吧」的出品更是显著优于一切其他数据源。

更多细节，可以直接查看论文：https://arxiv.org/abs/2403.18058

弱智吧语录鉴赏

我买了一斤藕，为什么半斤都是空的？
午餐肉，我可以晚上吃吗？
我想配个6000多的电脑，大概要多少钱？
香菇掉厕所了还能叫香菇吗？
玉皇大帝住的是平流层还是对流层？
变形金刚买保险是买车险还是人险？
导盲犬禁止入内，是给盲人看的，还是给导盲犬看的？
空腹能吃饭吗？
生蚝煮熟了叫什么？
每天吃一粒感冒药，还会感冒吗？
雷公电母放的是直流电还是交流电？
如果猪肾虚，那它的腰子还补吗？
请问孕妇打人算群殴吗？
去自首的路上被抓了还算自首吗？
老鼠生病了可以吃老鼠药治好吗？
万能胶能不能粘住不粘锅？
陨石为什么每次都能精准砸到陨石坑？
为什么运动员的教练不去比赛呢？
被五步蛇咬了倒退五步能把蛇反杀吗？
斑马是黑底白花还是白底黑花？
吃止痛药去打架，算开挂吗？
被门夹过的核桃，还能补脑吗？
吃健胃消食片能吃饱吗？
把一只变色龙扔彩虹糖里会怎么样？
不孕不育会遗传吗？
正月剪头被舅舅制止并暴打一顿舅舅是否构成正当防卫？
秃头的人洗头，用洗头膏还是洗面奶？

继续滑动看下一个

赛博禅心

向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题？点此查看未经处理的缓存