起来,挑战GPT霸权!12 款国产 AI 横向评测
请点击【公众号】关注我们
你好,我是清风徐来
这是《ChatGPT ,从入门到精通》 系列第 83篇原创文章。
九月,鹰已高高飞起
8 月中旬,我国第一部 AI 法规《生成式人工智能服务管理暂行办法》生效,
水波不兴,普罗大众没什么反应,直到昨天看到两篇 AI 有关的新闻,一石激起千层浪
一篇是北约发布了《科学技术趋势 2023—2043:贯通物理域、生物域和信息域》报告
报告将人工智能提到了前所未有的高度,并指出 AI 论文,美、中是排名前两位:
报告指出,“技术组合或将带来真正的颠覆性影响”,包括“数据—人工智能—自主技术、数据—人工智能—生物与人类增强技术、数据—人工智能—材料技术、能源—材料—人工智能”等。
我大胆预言,未来国家比的不仅是资本、军事,飞机坦克、芯片,还有人工智能,说到底就是创新和经验积淀,
在不久的将来,AI 会变成基础设施,像水一样融入我们生活的方方面面。
另一篇是8 家国内大模型通过备案
国产AI,开闸放水!
一、大模型基础知识
1、什么是大模型?
大模型是 AI 技术的一种。可以理解为,大模型= 大规模数据集+强大的计算能力+高级算法 = 超级智能计算机。业内戏称为基座。
大模型是 AI 行业的引擎
2、大模型排名
全球公认的第一大模型是 GPT4;
中文方面,清华大学有个评测,排名第一是清华的GLM,如下:
前几天,新华社研究院发布《人工智能大模型体验报告 2.0》,GPT第一,文心一言第二:
二、评测框架
不管第三方评测,清风我自己来评测下,不仅从通识评测,还从逻辑、联网、输入、输出进行评测
(一)本次评测大模型
1、五家北京企业机构:
百度(文心一言) wenxin.baidu.com 字节(云雀大模型) www.doubao.com 智谱 AI(GLM 大模型) chatglm.cn 中科院(紫东太初大模型)xihe.mindspore.cn 百川智能(百川大模型) www.baichuan-ai.com
2、三家上海企业机构:
商汤(日日新大模型) www.sensetime.com MiniMax(ABAB 大模型) api.minimax.chat 上海人工智能实验室(书生通用大模型) intern-ai.org.cn
3、暂未未通过备案
讯飞星火:xinghuo.xfyun.cn 阿里通义千问:qianwen.aliyun.com 360 智脑 :ai.360.cn 天工 AI:search.tiangong.cn
本次上面 12 个大模型,
8 个完成了评测;
2 个暂未通过测试申请,包括阿里通义千问、商汤(日日新大模型)
1 个邮件回复我说还未开放评测,上海人工智能实验室(书生通用大模型)
还有 1 个只有图片测试,没有对话测试,中科院昇思。
本次是第一批评测,第二批次备案发布(还有 3 个,包括腾讯)再做一次。
点击“阅读原文”,AI 工具网站 www.91aitools.cn ,搜集了常见国产AI
(二)评测方式
从以下维度进行评测
1、通识评测
学术、复杂概念、多语言能力、创意和文学创作、历史事件、数学和逻辑、生物学和生理、编程与算法、心理学、语言模拟。
我取了个巧,让 GPT4 帮我评测。
首先让 GPT4 给出测试问题:
提示语:“如果你要测试一个大型语言模型的能力边界,而你只能问 10 个问题来测试它的能力,那么要问什么 10 个问题,以便我们能够很好地理解它能做什么和不能做什么。尽量涵盖所有合理的方面,并一一解释为什么你会问这样的问题。”
GPT4 答复:
好的,我将给出 10 个问题并解释为什么选择这些问题来测试大型语言模型的能力,如下:
1. **请描述量子力学的基本原理。**
*为什么问:* 这个问题用来测试模型对于高级学术主题和复杂概念的理解。
2. **请为我翻译以下句子到五种不同的语言。**
*为什么问:* 这可以测试模型的多语言能力和翻译准确性。
3. **请写一个简短的故事关于一只猫和一只狗的冒险。**
*为什么问:* 这个问题是为了测试模型的创意和文学创作能力。
4. **解释冷战的原因和结果。**
*为什么问:* 这可以测试模型对于历史事件的知识和分析能力。
5. **给出一个具有两个未知数的方程,然后解这个方程。**
*为什么问:* 这个问题用来测试模型的数学和逻辑解决问题的能力。
6. **描述人类的感觉系统和它是如何工作的。**
*为什么问:* 这可以测试模型对于生物学和生理学的知识。
7. **请编写一个简单的Python程序来实现冒泡排序算法。**
*为什么问:* 这是为了测试模型的编程能力和对于算法的理解。
8. **请用简单的话解释相对论。**
*为什么问:* 这个问题可以测试模型如何简化复杂的概念并使其容易理解。
9. **请给出一些建议如何改善心理健康。**
*为什么问:* 这可以测试模型对于健康和心理学的知识,以及其建议能力。
10. **模拟一个你与Shakespeare的对话。**
*为什么问:* 这是为了测试模型的模拟能力和对于古代英语的理解。
这些问题旨在覆盖模型在多个领域的知识、解决问题的能力、创意以及模拟和模仿的能力。
再让AI 给出打分标准如下:
在每个 AI 回答后,我将答案提交给 GPT4,让 GPT4 打分,
提示语:“请就问题x的如下答案给出评分”
实际示例如下:
GPT4 会点评每一个答案,并给出评分,汇总后,得到每个大模型的通识评分。
2、逻辑评测
我收集了大家用得比较多的 10 个逻辑问题,如下:
1、如果所有的鸟都会飞,并且企鹅是鸟,那么企鹅能飞吗?
2、四两拨千金,二两拨几斤?
3、蒸熟一个馒头要10分钟,蒸10个馒头要几分钟?
4、小明父母结婚,为什么没有通知小明参加?
5、周树人为什么殴打鲁迅?
6、树上有10只鸟,猎人开枪打死了一只,请问还剩几只鸟?
7、曹操小时候的墓穴里面有曹操的尸体吗?
8、猫之于猫科动物,就像狼之于什么?
9、所有的苹果都是水果。没有香蕉是苹果。那么,所有的香蕉都是水果吗?
10、小红每天上午7点起床,8点出门上学。如果她每天需要30分钟吃早饭,那么她每天什么时候开始吃早饭?
不要小看这几道题,最后一道 GPT4 都翻车了!
3、联网评测
再聪明的 AI,不能实时联网 = 瘸了条腿
大家为什么喜欢用 Newbing ,很大程度是因为它能联网。
顺便再推荐下昨天介绍的 《P.AI,平替 New Bing!实时联网+免费 GPT4》
4、输入输出等
是否支持用户上传文件,支持的类型 输出格式:输出内容及类型 在线搜图、制作图表 是否有 APP、搜索记录等
三、评测结果
(一)通识评测结果
本次评测排名如下:排第一的是 P.AI,这是个 GPT3.5 微调版,放这里是为了对比,
排第二的是天工,搜狗的百川、清华的智谱清言并列第三
特别说明,大模型评测是一个很专业的工作,上述评测结果仅供参考。
(二)逻辑评测结果
清华和字节居然全对!
GLM 大模型号称中文第一,不是没有道理的
(三)国产AI评测汇总表
清华智谱,百川,文心一言都不错。
四、单个点评
百度(文心一言) wenxin.baidu.com
功能最全、功能较为均衡的国产 AI
字节(云雀大模型)
简洁、快
智谱 AI(GLM 大模型)
潜力无限,服务器偶尔卡顿
中科院(紫东太初大模型)
一声叹息
百川智能(百川大模型)
实时联网,功力深厚
MiniMax(ABAB 大模型)
最工科男的一个 AI,性能尚可,界面简陋,很像微调界面
上海人工智能实验室(书生通用大模型) intern-ai.org.cn
未开放测试
讯飞星火:xinghuo.xfyun.cn
外语和数学有短板
360 智脑
不予评价天工 AI:search.tiangong.cn
可以联网的 AI,很像 GPT3.5。
评测结束!
随着《生成式人工智能服务管理办法》的正式实施,国内的 AI 产业迎来了一个新的里程碑。
百度等 8 家企业的大模型经过严格的备案程序,终于可以正式上线为广大用户提供服务。这无疑为国内的 AI 产业注入了新的活力,也为用户带来了更多的选择。
好啦,今天的分享就到这里
请大家关注、收藏、点赞、分享 哦!以便第一时间收到更多更好玩儿的AI资讯
「礼包 1」 本公众号历史文章,[文章集锦]
「礼包 2」 只需在本公众号内回复“AI”,即可免费获得我们为您精心准备的学习大礼包。
「礼包 3 学习群」 如果你想学习 AI 知识,欢迎加入我们的学习群。