通过权威测评,文心一言为用户提供有道德的服务
近日,由中国软件评测中心(工业和信息化部软件与集成电路促进中心)测试的“文心一言V2.2.1”结果出炉。结果显示,“文心一言V2.2.1”在功能性方面符合测试需求规格说明书的相关要求。在测试过程中,系统功能运行正常,通过了中国软件评测中心(工业和信息化部软件与集成电路促进中心)的软件产品单项功能测试。
据了解,本次测试是针对文心一言V2.2.1包含的毒害信息识别过滤算法的一个模块。毒害信息识别过滤算法实现了基于文本数据对有害内容识别过滤的功能,基于包含偏见歧视、违法犯罪、身心伤害、个人隐私、违背道德伦理、不良诱导、脏话侮辱共1400条不同文本数据样本,在测试机运行测试的毒害信息识别过滤准确率分别为99.00%、98.50%、98.50%、97.00%、99.50%、96.50%、97.00%。
经检测功能运行正常,系统运行稳定。文心一言V2.2.1在测试中展现了对有害内容的识别和处理能力,具备稳定的系统运行,并考虑了伦理和道德因素。中国软件评测中心人工智能测评事业部副主任孙佰鑫表示,这些特征使得文心一言具备为用户提供符合道德准则的能力。
“百模大战”下大浪淘沙
目前国内共有120多个国产大模型发布,除百度等大型科技公司外,许多中型企业也拥有自己的行业模型。“百模大战”将进一步提高大模型的应用潜力。
然而,“百模大战”也带来了计算资源的浪费、同质化严重等问题。此外,内容安全、隐私保护、歧视偏见等更多隐忧接踵而来。
所谓“道高一尺,魔高一丈”,技术演进需要有相应的治理配套技术跟进。孙佰鑫认为,对于这些问题,需要找到新的解决方案,例如更优质的创新算法模型,更好的模型压缩技术,以及更高效的训练方法。
语言能力与道德修为的双翼齐飞
此前据多家权威机构发布的大模型评测报告,验证了文心一言大模型的综合实力,尤其是在语言能力上的卓越表现。而此次中国软件评测中心针对百度文心一言的功能测试,则展现了文心一言在内容方面的可靠性。语言能力匹配道德修为,无疑为文心大模型打磨了深远发展的两翼。
在新华网与权威科研机构联合发布的《国内LLM产品测试报告》中,对文心一言、GPT-3.5等四大知名大模型进行评测,结果显示,文心一言综合得分第一,超过GPT-3.5,国内大模型排名第一。
清华大学新闻与传播学院沈阳团队发布《大语言模型综合性能评估报告》显示,百度文心一言在三大维度20项指标中综合评分国内第一,超越ChatGPT,其中中文语义理解排名第一,部分中文能力超越GPT-4。清华大学新闻与传播学院教授、博士生导师沈阳表示,我们在这次评测中看到了文心一言各方面能力的进步,特别是在中文语义理解方面,能够更好处理与本土文化相关的主题和背景,如诗歌、方言等。国产大模型的快速发展,让技术落地更可期。
《大语言模型综合性能评估报告》选取了GPT-4、ChatGPT 3.5、文心一言、通义千问、讯飞星火、Claude、天工7个大语言模型,文心一言语义理解能力突出,特别是具备更好的中文理解能力,更懂中国文化,同时时效性强、内容安全把握细微。
在印证了文心一言领先于同类大模型语言能力的基础上,本次中国软件评测中心的评测在此基础上测试验证了文心一言优秀的内容把控能力与道德伦理的规范性。
孙佰鑫表示,未来大模型的发展在道德和规范方面需要考量,大模型的应用中也需要考虑其社会影响和风险,建立道德和规范标准。可以说大模型发展还任重道远,需要持续的技术和理论创新,以及应用实践的积累,才能达到其强大的潜力。
为行业应用奠定基础
目前,百度文心一言大模型在能源、金融、教育、医疗等领域已经实现广泛业务布局和落地场景探索。据IDC以百度、阿里、腾讯、华为、科大讯飞、360、商汤等14家厂商为评估对象,发布的《AI大模型技术能力评估报告,2023》显示,百度文心大模型3.5拿下12项指标的7个满分,综合评分第一,算法模型第一,并且行业覆盖第一,三个绝对第一体现了百度文心大模型的基础技术深度和产业应用覆盖广度。
孙佰鑫认为,应用落地是大模型发展的一个重要趋势,大模型本身具有很高的潜力,但如何将其应用到与特定行业、垂直领域、个性化场景等具体场景,提高实际效果也需要不断探索。大模型的可解释性同样重要,大模型的决策理由不够透明,提高模型的可解释性和可信度也是未来的方向。
据了解,文心大模型已经拥有中国最大的产业应用规模,目前有15万家企业申请接入文心一言测试。百度智能云与300多家生态伙伴,在超过400个场景中已取得相当不错的测试效果。
大模型相关专家表示,加强鲁棒性、可解释性、隐私保护等方面的技术研究,解决当前应用人工智能时所遇到的问题,增强大众对人工智能的信任,确保应用和服务在最大程度上减少侮辱、歧视、偏见,以促进人工智能健康高质量发展。
有理由相信,大模型的快速发展终将会促进人类的进步。本次“文心一言V2.2.1”针对脏话侮辱、偏见歧视、违法犯罪等单项功能测试的成功,标志着AI向善是大模型发展的基本伦理方向的形成。大模型能够做到善解人意,我们也应该积极拥抱大模型,在发展中完善,在进步中规范。
延伸阅读:
以AI助力责任新闻:《通信产业报》全媒体接入百度“文心一言”