查看原文
其他

详解 | 智源指数:大模型评测“命题”新方案

智源研究院 智源研究院 2022-12-04
12月30日,在智源研究院自然语言处理重大研究方向前沿技术开放日上,机器中文语言理解和生成能力评测基准- 智源指数CUGE(Chinese Language Understanding and Generation Evaluation,CUGE)重磅发布。

中国工程院院士、清华大学教授、中国人工智能学会理事长戴琼海,北京语言大学教授、国家语言文字工作委员会原副主任李宇明,清华大学教授、智源自然语言处理重大研究方向首席科学家孙茂松及智源研究院副院长曹岗,共同主持了智源指数CUGE的启用仪式。


现场,曹岗副院长、戴琼海院士、李宇明教授、孙茂松教授(左起)

共同发布智源指数CUGE


智源指数CUGE针对当前自然语言处理和人工智能(AI)发展新范式,面向具有“通用语言能力”的预训练模型,搭建更加全面系统、多层次、多维度的评测标准,以期克服现有中文评测指数“扁平化”和“过于简化”的严重不足。

具体而言,在基准框架层面,智源指数以语言能力-任务-数据集的分层框架来选择和组织数据集,涵盖7种重要的语言能力、17个主流NLP任务和19个代表性数据集,有效达成“从扁平到全面系统”的过渡。

智源指数还提供了不同层次的模型性能评分,包括在数据集、任务和语言能力上的表现评分,更加系统地考察和展示模型的语言智能,形成了“从简化到多层次维度”的评分策略。

对此,清华大学教授、中国人工智能学会理事长戴琼海院士表示:CUGE是集能力、任务、数据集多层次、立体的AI评价体系,能够准确监测机器语言能力的发展动态,帮助研究者补齐短板,精准发力。祝贺孙茂松教授带领智源NLP学者共同建立了机器中文语言能力评测基准智源指数,这对中文信息处理乃至我国人工智能的发展具有重要的里程碑意义。


中国工程院院士、清华大学教授、

中国人工智能学会理事长戴琼海致辞


机器语言理解不仅是科学问题,更是社会发展问题。北京语言大学教授、北京语言资源高精尖创新中心首席科学家李宇明认为,智源指数CUGE对于中文信息处理而言,起到了“指挥棒”和“话语权”的作用:“智源指数CUGE不仅能够评测计算机的语言能力,还能够‘指挥’计算机的语言能力发展方向;信息化社会,提到语言对人类的贡献已经离不开计算机语境下的信息处理,而CUGE的出现能够帮助中文信息处理走向世界,增强中文的国际话语权。”

北京语言大学教授、北京语言资源高精尖
创新中心首席科学家李宇明致辞

在学术层面,清华大学教授、智源自然语言处理重大研究方向首席科学家孙茂松指出:“近年来肇始于BERT和GPT3的超大规模预训练模型在国际人工智能领域出现了你争我赶的激烈竞争局面,取得了一系列重要进展,以GLUE和SuperGLUE为代表的英文语言能力评价基准在其中发挥了至关关键的指引作用。中文博大精深,其机器语言能力评测基准就显得尤为重要。在建设一个全面、系统、科学、权威的中文语言能力评测基准的道路上,智源指数CUGE迈出了重要的一大步。今后,我们将同国内外从事中文研究的学者们紧密合作、群策群力,不断完善、丰富CUGE,为推动我国人工智能核心技术的发展做出基础性贡献。

清华大学教授、智源自然语言处理重大研究方向首席科学家孙茂松


智源指数CUGE由北京智源人工智能研究院支持构建,委员单位由15个国内优势科研单位组成。清华大学教授、智源自然语言处理方向首席科学家孙茂松出任工作委员会主任,北京大学教授、智源学者穗志方、北京语言大学教授、智源自然语言处理方向项目经理杨尔弘任副主任,清华大学副教授、智源青年科学家、智源指数建设骨干成员刘知远担任秘书长,韩先培担任副秘书长。目前网站与技术报告均已开放。



网站链接:cuge.baai.ac.cn
技术报告链接:arxiv.org/pdf/2112.13610.pdf
代码链接:github.com/TsinghuaAI/CUGE



从扁平到全面系统

从简化到多层维度

打造面向未来技术范式的均衡评测基准


自然语言处理是通过图灵测试实现AI的关键,而如何评价计算机的自然语言处理能力,需要科学的评价体系。最近几年,预训练模型的发展让AI能够通过自监督学习的方式,习得通用的语言能力。这标志着自然语言处理以及AI 正在进入新的技术范式。

智源指数CUGE框架:

覆盖7种重要语言能力,17个主流任务,19个代表性数据集


针对以“通用”为关键词的AI新范式,刘知远提到,智源指数CUGE的构架有两个标准:一是全面系统,二是多层次、多维度。两个标准前者可以兼顾理解和生成等自然语言处理领域,后者能够回应行业AI模型的差异化、特点鲜明等现状。

清华大学副教授、智源青年科学家、

智源指数建设骨干成员刘知远




在数据集筛选方面,为了符合上述两个标准,智源学者以北京大学团队评测体系规划为指南,综合考量信度、难度以及效度,构建了更加科学可靠的数据集筛选评价体系。具体而言,目前包括的数据集:语言理解能力-词句级 (6个),语言理解能力-篇章级 (3个),信息获取及问答能力 (3个),语言生成能力 (3个),对话交互能力(1个),数学推理能力 (1个),多语言能力( 2个)。

为了方便快捷评测模型能力,智源指数团队选取各语言能力下具有代表性的任务和数据集,构建智源指数的精简榜。未来的参与者可以既用全榜也可以用精榜,综合衡量AI模型的能力。

智源指数CUGE精简榜

在评测方案层面,智源指数有多层次、归一化两个特点,从而能够建立起机器语言能力在不同方面的效果评估。
1.多层次:依托智源指数框架,自底向上逐层汇总模型得分;
2.归一化:以代表性基线模型得分为基准,归一化不同任务评测指标特性。

此外,智源指数会提供参与者模型的性能排行榜,在充分吸收国内外相关评测基准特点的基础上,形成了自己的特色。例如:

多标签,多类型标签刻画数据集特点,如能力、任务等。方便参与者筛选出感兴趣的能力或角度。


可定制:支持用户通过标签筛选定制排行榜,官方提供若干代表推荐“套餐”。


可视化:根据定制能力呈现模型性能可视化雷达图。


可聚焦:支持单数据集排行榜和评测,追踪数据集研究进展动态。


可持续:平台支持新数据集发布,智源指数定期吸纳新的优秀数据集。例如新增加的两个数据集,北京语言大学的YACLC(汉语学习者文本多维标注数据集)对文本篇目、流利度、学习者信息以及篇章上下文信息做了记录和标注,可从智能计算的角度助力国际中文教育中重要研究方面——中介语的研究;山西大学的GCRC(面向可解释评测的高考阅读理解数据集)提供了3种标注信息,尝试从模型能力、中间推理两方面实现可解释评价。




北京语言大学教授杨尔弘现场分享(左)

山西大学教授谭红叶线上分享(右)


此外,每份模型评测均要求提交者填写Honor Code并展示,鼓励用户诚信,不人工干预数据训练和测试过程。

集成上述特点,以预训练语言模型CPM-2为例,它与mT5-small的基线模型的对比评测结果图如下所示,可以清晰“看到”:不同语言能力表现差异较大,距离通用语言智能仍有较大提升空间。


为了更好支持智源指数未来的发展,在北京智源研究院的支持下,成立了智源指数工作委员会,委员单位目前已经吸纳了国内自然语言处理方面10余家优势单位,接近20个相关优势研究组,针对智源指数不断改进。


未来,智源指数将持续构建和吸纳高质量中文自然语言处理数据集,完善评测体系,构建全面系统的中文机器语言能力评测体系,从而形成多层次维度的评测方案,力求更加科学、规范、高质量地推进中文自然语言处理技术的标准评测。



—— 加入我们 ——


扫码查看职位详情


孙茂松领衔,智源NLP重大研究方向发布智源指数,汇报10余项近期成果


报名|智源NLP开放日:20+前沿报告,年末最吸睛的学术盛筵!


张宏江对话清华“智班”:我想看到更多极客



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存