高质量的语料
这两天出现了一篇有趣论文《COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning》,大意是《搞微调,还得拼质量》。
我们都知道,在大模型训练中,我们的中文数据集多多多多多多多多多多多多多多少少有点问题:要么是英文派生的,要么是脱离实际的,加之中华文化的博大精深和一些都知道的原因,共同造就了优质数据的匮乏。
方法总比困难多,研究团队推出了一个名为 COIG-CQIA 中文指令微调数据集,其取自我们通常认为的高质量数据源,如问答社区、维基、考试和现有的自然语言处理(NLP)数据集。当然,这里还包括「弱智吧」。
之后,研究人员用这些数据集来调教 Yi-6B,再通过 BELLE-EVAL 使用 GPT4 进行评估,得出结论:「弱智吧」的出品遥遥领先,远超过一切其他网络媒体(如:知乎)
不仅是性能,在之后的 SafetyBench 安全测试中,「弱智吧」的出品更是显著优于一切其他数据源。
更多细节,可以直接查看论文:https://arxiv.org/abs/2403.18058
弱智吧语录鉴赏