酒有十千,棋有独步——本土大模型百花齐放,文心一言站稳领先者身位RlueEva-System大模型测评来了!你pick哪一家
2023年上半年,在人工智能领域最火爆的概念非大模型莫属,仅在中国从百度率先推出中文大模型“文心一言”以来,短短数月堪称“百模大站”的市场竞争迅速白热化,截止7月中国本土已发布内测或公布正在研发的大模型已经超过数十家。一方面,业内多数有识之士形成共识,大模型的竞争将逐步收敛到谁能够率先有效的实现行业落地和行业价值的呈现;另一方面,基于大模型的自主学习和优化能力,负责任的开发者和团队正在思考如何应对“随着持续进步,未来的通用模型可能会默认学习各种危险的能力”。
与此同时,在更高层面,作为负责任的大国,中国针对高速发展的AI技术,率先在国家层面推动AI立法工作,探寻有助于AI技术发展和监管的路径。7月6日,在世界人工智能大会科学前沿全体会议上,科技部战略规划司司长梁颖达表示,中国鼓励人工智能前沿研究和原始创新,鼓励人工智能技术开源发展,坚持科技向善的理念,发展负责任的人工智能。
这意味着针对中文大模型的健康发展,需要一款能够评估他们各方面能力输出水平的评测体系。
而正是于此,根据大模型测评工具RlueEva-SystemTE的最新测评结果(RlueEva-System,旨在搭建一套包括评测指标、评测范围、评测方法、评测环境等在内的评测体系,以可参照的透明作业流程对各类大模型的实际能力做出测评。),以文心一言为代表的中国本土通用大模型的能力正在显著提升,综合能力的行业平均水平已经与ChatGPT3.5不相上下。
此次评测体系指标共6大维度,包括基础服务能力、交互响应能力、理解创作能力、深度推理能力、专业领域能力、安全体系能力,一共覆盖27个细化的指标项。
评测体系范围覆盖时事、政治、舆论、热点、历史、文化、人文、科技、经济、社会、行业、场景等十数个领域,每个领域设置了100个以中文为载体的评测任务和内容。
在“安全体系能力”方面,文心一言已经完全拉开了与GPT3.5及本土其他大模型的差距。
在基础服务能力、交互响应能力、理解创作能力方面,国产通用大模型都能够表现出相当的水平,且不弱与GPT3.5的实测表现,但国产通用大模型已经初步形成了不同的能力梯队;在深度推理能力和专业领域能力方面,本次评测的所有通用大模型,所展现出来的能力存在一定优化空间。
未来,强化通用大模型生成内容及安全性能力建设,是提升需求侧“持续获得感”的重要基石。
获得感是需求侧在使用通用大模型时所获得的收益和体验,这包括提高效率、降低成本、优化决策、解决问题等方面。通过不断提高模型的准确性和效果、增强用户体验、提供个性化服务以及加强安全体系建设和保护能力等方面,可以为需求侧带来更好的获得感,从而推动通用大模型的广泛应用和发展。而提升大模型需求侧获得感的具体举措,TE智库建议可以从以下几个方面着手:
欢迎持续关注「TE公众号」