其他
TACO:开源最大规模、面向复杂任务的代码生成训练数据集与评测基准
规模更大:TACO 包括训练集(25443道题目)和测试集(1000道题目),是当前规模最大的代码生成数据集。 质量更高:TACO 数据集中的每个题目都尽可能匹配多样化的解题答案,答案规模高达155万条,确保训练时模型不易过拟合以及评测结果的有效性。 提供细粒度标签:TACO数据集中每个题目均包含任务主题、算法、技能及难度等细粒度标签,为代码生成模型的训练与评测更精确的参考。
论文:https://arxiv.org/abs/2312.14852 智源开放数据仓库:https://data.baai.ac.cn/details/BAAI-TACO GitHub: https://github.com/FlagOpen/TACO Hugging Face: https://huggingface.co/datasets/BAAI/TACO
TACO 测试集具备较高挑战性,GPT-4在 easy 等级 pass@1 得分仅 31.5。除 GPT-4 以外,各代码模型在5个难度等级的 pass@1 得分基本低于 10,pass@100得分甚至也不及 GPT-4 pass@1。
利用具备细粒度标签的TACO训练集可以针对性提升代码生成模型的性能。例如,starcoder-1b 在使用 TACO 训练集在特定技能上微调后,性能有了明显提升。