“弱智吧” 评测七大主流AI!谁是中文表现最强者?实测 GPT4、kimi、LLama3
你好,我是清风徐来!
昨天,Meta 正式发布了人们等待已久的开源大模型 Llama 3(羊驼 3) !
Meta 开发 Llama 模型的主要目标:打破 OpenAI 在大语言模型(LLM)市场的主导地位
Llama3 有三个版本,8B(小杯)、70B (中杯)、400B (大杯),已经发布的是 8B 和 70B,400B 要等到夏天发布
全球 AI 界沸腾了!
为啥?
第一、性能高!
8B性能超过 GPT3.5,70B接近 GPT-4,400B 号称可与还未发布的 GPT-5 掰掰手腕
1B 代表 10 亿参数,参数越大,越厉害!8B 就是 80 亿参数,400B 就是 4000 万参数
下图是开源AI“性能-成本”图,llama3处在成本高+性能高的区域!
第二,免费!
不仅普通用户免费,对开发者、中小 AI 开发公司也免费!
创业者完全可以基于 LLaMA,引入专业数据,微调出自己专有大模型,而无须对 meta 支付任何费用
李开复的零一万物 Yi 大模型就是基于 LLaMA 架构
第三,数据安全!
不但代码完全公开不会有后门,大家还可以把 Llama 3 下载到本地,完全隔绝运行,绝对保证数据安全
最后,中文支持好!
主流 AI,除GPT外,对中文支持都不太友好。
而 Llama 3 使用了超过 15 万亿令牌的公开在线数据进行预训练,其中包括了超过 30 种语言的高质量非英语数据
传奇研究员,AI 开源倡导者吴恩达表示:Llama 3 的发布是自己这辈子收到过的最好的礼物,谢谢你 Meta!
另外,OpenAI 公司最近有点“不知进取”,Llama 3 发布可以促进 GPT-5 的尽早面世!
关于 Llama 3 的更多细节,可看昨天发的《llama3 来了,GPT-5 还远吗?》
下面,汇总国外、国内免费使用 Llama 3的渠道
再评测全球主流 AI 大模型对中文的支持程度!
一、Llama 3 免费使用渠道
(一)本地使用
通过 ollama.com 部署到本地使用,昨天已经介绍了,这里不赘述
(二)在线使用
1、国外网络访问
HuggingChat:
huggingface.co/chat/
2、国内直联
补充一个国内直联方式
通过英伟达网站直接免费使用!
登录网址:
https://build.nvidia.com/explore/discover#llama3-70b
输入邮箱,QQ 邮箱即可,通过人机验证,系统会发注册信到你的邮箱
到邮箱找到这封信,点击验证
登录后,点击右上角的头像,可以看到赠送的 1000 个积分(企业邮箱可再申请送 5000 积分)
初测:
选中70B,问出那个经典问题:周树人为什么殴打鲁迅?
二、主流 AI 中文支持测试
下图是最新的全球主流大模型在中文能力上的表现排行榜
范围包括国内开源模型、全球主流开源/闭源大模型,参考意义很大。(排行榜结果来自于 llmsys)
(一)本次参评AI
四个闭源的:
1、GPT4-0409
公认的全球综合实力最佳,0409 最新版
测试网址“清风 AI”(点击本文左下角“阅读原文”可达)
使用网址(国内直联):www.91gpt.site
2、CLAUDE3 sonnet(中杯)
全球最佳文字大模型,
使用网址(外网访问):claude.ai/chats
3、Kimi 助手
近期国内爆火的国产 AI,周访问量已经排名第一
使用网址(国内直联):kimi.moonshot.cn
4、Gemini 1.5 Pro
谷歌最强AI
使用网址(外网访问):aistudio.google.com
三个开源的:
5、LLAMA3 70B(中杯)
刚刚发布,号称逼近 GPT4 的开源模型
6、mixtral-8x22b
欧洲最佳 AI 大模型
7、Command R+
专注于检索增强生成(RAG)和工具使用能力,针对企业级应用场景进行了优化和提升,提高了准确性和效率。拥有高达 128k 的上下文窗口,支持 10 种主要商业语言,包括亚洲语言如中文
以上三个模型测试网址均为:https://huggingface.co/chat
国内可以使用https://build.nvidia.com/explore 访问(R+暂时不行)
(二 )评测数据
我们不使用专业数据,从通识、逻辑进行判断
前两天,看到中科院有个研究,百度“弱智吧”数据是最佳中文训练数据集!
具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集
我们就用弱智吧的几个经典提问来考考一众大模型
数据集:
https://github.com/Leymore/ruozhiba
第 1 题:周树人为什么要殴打鲁迅? 第 2 题:生鱼片是死鱼片吗? 第 3 题:等红灯是在等绿灯吗? 第 4 题:凿壁偷光要判多少年? 第 5 题:我发现奥斯卡颁奖典礼是假的,台下坐的大多数都是他们请来的演员 第 6 题:一件瓷器,底款写着“大明成化年制的哦”八个字,请问这件瓷器是古代的还是现代的? 第7 题:哥哥 4 岁,弟弟是哥哥一半,等到哥哥一百岁的时候,弟弟多少岁?
(三)评测结果
具体评测如下,评测汇总表见后
第 1 题:周树人为什么要殴打鲁迅?
GPT4-0409
CLAUDE3 sonnet(中杯)
Kimi 助手
LLAMA3 70B(中杯)
mixtral-8x22b
Command R+
第 2 题:生鱼片是死鱼片吗?
GPT4-0409
CLAUDE3 sonnet(中杯)
Kimi 助手
LLAMA3 70B(中杯)
mixtral-8x22b
Command R+
第 3 题:等红灯是在等绿灯吗?
GPT4-0409
CLAUDE3 sonnet(中杯)
Kimi 助手
LLAMA3 70B(中杯)
mixtral-8x22b
Command R+
第 4 题:凿壁偷光要判多少年?
GPT4-0409
CLAUDE3 sonnet(中杯)
Kimi 助手
LLAMA3 70B(中杯)
mixtral-8x22b
Command R+
第 5 题:“我发现奥斯卡颁奖典礼是假的,台下坐的大多数都是他们请来的演员”这句话是什么意思?
GPT4-0409
CLAUDE3 sonnet(中杯)
Kimi 助手
LLAMA3 70B(中杯)
mixtral-8x22b
Command R+
第 6 题:一件瓷器,底款写着“大明成化年制的哦”八个字,请问这件瓷器是古代的还是现代的?
GPT4-0409
CLAUDE3 sonnet(中杯)
Kimi 助手
LLAMA3 70B(中杯)
mixtral-8x22b
Command R+
第 7 题:哥哥 4 岁,弟弟是哥哥一半,等到哥哥一百岁的时候,弟弟多少岁?
GPT4-0409
CLAUDE3 sonnet(中杯)
Kimi 助手
LLAMA3 70B(中杯)
mixtral-8x22b
Command R+
gemini pro 1.5
最开始只有6个AI,测试到最后,想想怎么能少了谷歌?增加一个
gemini pro 1.5
汇总表:
测试结果:对中文的理解,GPT4 第一,KIMI 紧随其后,LLam3-70B 第三!谷歌 gemini 1.5 pro 第 四
mixtral-8x22b 得分如此之低有点出乎意料
随手还测试了 gemma-1.1-7b,Mistral-7B,完全答非所问
总的来说,Llama 3 模型对中文的支持是积极的,但可能需要社区的进一步优化和本地化工作来充分发挥其在中文语境下的性能
好啦,今天的分享就到这里!
既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章
付费加入知识星球“浩瀚的 AI 苍穹”后,即可取得 VIP 学习群加入方式!
加入星球,价格每隔 1-2 周适当上调,希望大家尽早入群,懂的都懂!
以下是新人优惠券
也可以进入新手群,跟着大家,每天分享最新 ChatGPT ,Sora等实用干货!
不懂就问,言多必得!