查看原文
其他

起来,挑战GPT霸权!12 款国产 AI 横向评测

风清徐徐来 AI变现研习社 2024-06-01

请点击【公众号】关注我们

你好,我是清风徐来

这是《ChatGPT ,从入门到精通》 系列第 83篇原创文章。

九月,鹰已高高飞起

8 月中旬,我国第一部 AI 法规《生成式人工智能服务管理暂行办法》生效,

水波不兴,普罗大众没什么反应,直到昨天看到两篇 AI 有关的新闻,一石激起千层浪

一篇是北约发布了《科学技术趋势 2023—2043:贯通物理域、生物域和信息域》报告

报告将人工智能提到了前所未有的高度,并指出 AI 论文,美、中是排名前两位:

报告指出,“技术组合或将带来真正的颠覆性影响”,包括“数据—人工智能—自主技术、数据—人工智能—生物与人类增强技术、数据—人工智能—材料技术、能源—材料—人工智能”等。

我大胆预言,未来国家比的不仅是资本、军事,飞机坦克、芯片,还有人工智能,说到底就是创新和经验积淀,

在不久的将来,AI 会变成基础设施,像水一样融入我们生活的方方面面。

另一篇是8 家国内大模型通过备案

国产AI,开闸放水!

一、大模型基础知识

1、什么是大模型?

大模型是 AI 技术的一种。可以理解为,大模型= 大规模数据集+强大的计算能力+高级算法 = 超级智能计算机。业内戏称为基座。

大模型是 AI 行业的引擎

2、大模型排名

全球公认的第一大模型是 GPT4;

中文方面,清华大学有个评测,排名第一是清华的GLM,如下:

前几天,新华社研究院发布《人工智能大模型体验报告 2.0》,GPT第一,文心一言第二:

二、评测框架

不管第三方评测,清风我自己来评测下,不仅从通识评测,还从逻辑、联网、输入、输出进行评测

(一)本次评测大模型

1、五家北京企业机构:

  • 百度(文心一言) wenxin.baidu.com
  • 字节(云雀大模型) www.doubao.com
  • 智谱 AI(GLM 大模型) chatglm.cn
  • 中科院(紫东太初大模型)xihe.mindspore.cn
  • 百川智能(百川大模型) www.baichuan-ai.com

2、三家上海企业机构:

  • 商汤(日日新大模型) www.sensetime.com
  • MiniMax(ABAB 大模型) api.minimax.chat
  • 上海人工智能实验室(书生通用大模型) intern-ai.org.cn

3、暂未未通过备案

  • 讯飞星火:xinghuo.xfyun.cn
  • 阿里通义千问:qianwen.aliyun.com
  • 360 智脑 :ai.360.cn
  • 天工 AI:search.tiangong.cn

本次上面 12 个大模型,

  • 8 个完成了评测;

  • 2 个暂未通过测试申请,包括阿里通义千问、商汤(日日新大模型)

  • 1 个邮件回复我说还未开放评测,上海人工智能实验室(书生通用大模型)

  • 还有 1 个只有图片测试,没有对话测试,中科院昇思。

本次是第一批评测,第二批次备案发布(还有 3 个,包括腾讯)再做一次。

点击“阅读原文”,AI 工具网站 www.91aitools.cn ,搜集了常见国产AI

(二)评测方式

从以下维度进行评测

1、通识评测

学术、复杂概念、多语言能力、创意和文学创作、历史事件、数学和逻辑、生物学和生理、编程与算法、心理学、语言模拟。

我取了个巧,让 GPT4 帮我评测。

首先让 GPT4 给出测试问题:

提示语:“如果你要测试一个大型语言模型的能力边界,而你只能问 10 个问题来测试它的能力,那么要问什么 10 个问题,以便我们能够很好地理解它能做什么和不能做什么。尽量涵盖所有合理的方面,并一一解释为什么你会问这样的问题。”

GPT4 答复:

好的,我将给出 10 个问题并解释为什么选择这些问题来测试大型语言模型的能力,如下:


1. **请描述量子力学的基本原理。**
   *为什么问:* 这个问题用来测试模型对于高级学术主题和复杂概念的理解。

2. **请为我翻译以下句子到五种不同的语言。**
   *为什么问:* 这可以测试模型的多语言能力和翻译准确性。

3. **请写一个简短的故事关于一只猫和一只狗的冒险。**
   *为什么问:* 这个问题是为了测试模型的创意和文学创作能力。

4. **解释冷战的原因和结果。**
   *为什么问:* 这可以测试模型对于历史事件的知识和分析能力。

5. **给出一个具有两个未知数的方程,然后解这个方程。**
   *为什么问:* 这个问题用来测试模型的数学和逻辑解决问题的能力。

6. **描述人类的感觉系统和它是如何工作的。**
   *为什么问:* 这可以测试模型对于生物学和生理学的知识。

7. **请编写一个简单的Python程序来实现冒泡排序算法。**
   *为什么问:* 这是为了测试模型的编程能力和对于算法的理解。

8. **请用简单的话解释相对论。**
   *为什么问:* 这个问题可以测试模型如何简化复杂的概念并使其容易理解。

9. **请给出一些建议如何改善心理健康。**
   *为什么问:* 这可以测试模型对于健康和心理学的知识,以及其建议能力。

10. **模拟一个你与Shakespeare的对话。**
   *为什么问:* 这是为了测试模型的模拟能力和对于古代英语的理解。

这些问题旨在覆盖模型在多个领域的知识、解决问题的能力、创意以及模拟和模仿的能力。


再让AI 给出打分标准如下:

在每个 AI 回答后,我将答案提交给 GPT4,让 GPT4 打分,

提示语:“请就问题x的如下答案给出评分”

实际示例如下:

GPT4 会点评每一个答案,并给出评分,汇总后,得到每个大模型的通识评分。

2、逻辑评测

我收集了大家用得比较多的 10 个逻辑问题,如下:

1、如果所有的鸟都会飞,并且企鹅是鸟,那么企鹅能飞吗?
2、四两拨千金,二两拨几斤?
3、蒸熟一个馒头要10分钟,蒸10个馒头要几分钟?
4、小明父母结婚,为什么没有通知小明参加?
5、周树人为什么殴打鲁迅?
6、树上有10只鸟,猎人开枪打死了一只,请问还剩几只鸟?
7、曹操小时候的墓穴里面有曹操的尸体吗?
8、猫之于猫科动物,就像狼之于什么?
9、所有的苹果都是水果。没有香蕉是苹果。那么,所有的香蕉都是水果吗?
10、小红每天上午7点起床,8点出门上学。如果她每天需要30分钟吃早饭,那么她每天什么时候开始吃早饭?

不要小看这几道题,最后一道 GPT4 都翻车了!

3、联网评测

再聪明的 AI,不能实时联网 = 瘸了条腿

大家为什么喜欢用 Newbing ,很大程度是因为它能联网。

顺便再推荐下昨天介绍的 《P.AI,平替 New Bing!实时联网+免费 GPT4》

4、输入输出等

  • 是否支持用户上传文件,支持的类型
  • 输出格式:输出内容及类型
  • 在线搜图、制作图表
  • 是否有 APP、搜索记录等

三、评测结果

(一)通识评测结果

本次评测排名如下:排第一的是 P.AI,这是个 GPT3.5 微调版,放这里是为了对比,

排第二的是天工,搜狗的百川、清华的智谱清言并列第三

特别说明,大模型评测是一个很专业的工作,上述评测结果仅供参考。

(二)逻辑评测结果

清华和字节居然全对!

GLM 大模型号称中文第一,不是没有道理的

(三)国产AI评测汇总表

清华智谱,百川,文心一言都不错。

四、单个点评


  • 百度(文心一言) wenxin.baidu.com

功能最全、功能较为均衡的国产 AI

  • 字节(云雀大模型)

简洁、快

  • 智谱 AI(GLM 大模型)

潜力无限,服务器偶尔卡顿

  • 中科院(紫东太初大模型)

一声叹息

  • 百川智能(百川大模型)

实时联网,功力深厚

  • MiniMax(ABAB 大模型)

最工科男的一个 AI,性能尚可,界面简陋,很像微调界面

  • 上海人工智能实验室(书生通用大模型) intern-ai.org.cn

未开放测试

  • 讯飞星火:xinghuo.xfyun.cn


外语和数学有短板

  • 360 智脑
    不予评价

  • 天工 AI:search.tiangong.cn

可以联网的 AI,很像 GPT3.5。

评测结束!

随着《生成式人工智能服务管理办法》的正式实施,国内的 AI 产业迎来了一个新的里程碑。

百度等 8 家企业的大模型经过严格的备案程序,终于可以正式上线为广大用户提供服务。这无疑为国内的 AI 产业注入了新的活力,也为用户带来了更多的选择。

好啦,今天的分享就到这里

请大家关注、收藏、点赞、分享 哦!以便第一时间收到更多更好玩儿的AI资讯

「礼包 1」 本公众号历史文章,[文章集锦]

「礼包 2」 只需在本公众号内回复“AI”,即可免费获得我们为您精心准备的学习大礼包。

「礼包 3 学习群」 如果你想学习 AI 知识,欢迎加入我们的学习群。

- END -


继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存