中文性能赶超GPT4.0,这个国产大模型炸裂问世!
大家好,我是轩辕。
最近AI圈子又热闹起来了,不仅OpenAI推出了新模型,咱们国产大模型也是喜报频传。
这不,前几天5月9日,阿里云就甩出了一颗重磅炸弹,通义千问大模型2.5来了!
5月9日,阿里云发布了通义千问2.5,据称性能卓越,尤其中文性能全面赶超GPT4 Turbo,成为目前“最强中文大模型”!
具体来说,通义千问2.5的理解能力、逻辑推理、指令遵循、代码能力分别提升了9%、16%、19%、10%升,中文能力更是持续领先业界。在权威基准OpenCompass上,通义千问2.5得分追平GPT-4 Turbo,是该基准首次录得国产大模型取得如此出色的成绩。
同时,通义还发布了最新款开源模型:Qwen1.5-110B
,参数量高达1100亿!该模型在MMLU、TheoremQA、GPQA等基准测评中超越了Meta前段时间刚刚发布的Llama-3-70B模型,在HuggingFace
推出的开源大模型排行榜Open LLM Leaderboard
上,Qwen1.5-110B
直接冲上榜首,充分展示了在开源大模型领域的强势竞争力。
其表现出的能力,连国外很多网友都非常惊讶:
吸引我关注的原因,是它号称全面赶超GPT-4。咱们不看广告看疗效,来实际体验用一下,看看效果究竟怎么样。
既然官网宣称理解能力、逻辑推理、指令遵循、代码能力提升了不少,我决定来测测这几方面的能力,各位搬好小板凳前排围观了。
1、理解能力
首先来看理解能力,看看那个传说中的汉语八级的题目,通义千问能不能Get到全部的意思:
这中文理解能力确实不错,我们再换一题,这道题的难度比上面还要大:
请问下面一句话是什么意思:
女孩给男孩打电话,我们这在电影院门口见面,如果你到了我没到,那你就等着吧,如果我到了你没到,那你就给我等着吧!
这道中文顶级理解题,强如最新发布的ChatGPT4o居然都没领悟出那一层背后的意思:
通义千问不愧是懂汉语的,读出了背后的意思:
再一次感慨,汉语的博大精深啊。
2、逻辑推理
接下来我们来看看通义千问的逻辑推理能力。
逻辑推理,不仅仅是要理解我提交的内容,还要基于内容进行推理分析,就像人脑思考的过程,这是现在大模型人工智能区别于过去传统NLP的人工智障的最基本的区别之一。
比如下面这道经典的烧绳子计时的问题,曾经出现在很多大厂面试题中:
通义千问给出的解答非常细致,步骤也很详实。
再来看一道著名的称球问题,也是面试中经常抠破头的难题:
回答非常nice,清晰简洁。逻辑推理这一块,通义千问也是有两把刷子的,话说以后整个什么智能眼镜,然后把AI装进去,面试什么的再也不用怕了!
3、代码能力
最后,咱们再来看看通义千问在代码方面的能力,广大程序员朋友肯定非常关心这方面的能力,毕竟现在日常工作,基本上都离不开AI来帮我们写代码了。
咱们不写什么冒泡算法那一套,这太简单了,考验不出水平,要整就整点复杂的,最好跟咱们日常工作经常要用到的相关。
C++是所有编程语言里公认的比较难的语言,这第一个题目,就让AI来写一个C++程序。
最近我刚好有这么一个需求,需要用C++编写一个程序遍历所有进程加载的动态链接库模块,如果发现模块文件不存在,就做出告警,这是很多内存木马的惯用套路,注入到某个进程中运行,但磁盘上又没有文件存在。
代码我弄下来试了一下,直接一把编译完成,没有任何问题。
再比如很多Java后端程序开发,需要根据数据进行聚合统计查询,比如这里我让它用Java从我的HTTP服务器请求日志中聚合统计出TOP10的请求IP:
完成的也非常出色。从我实际体验来看,代码这块质量比起之前的版本确实提升巨大,写出的代码可用性非常高。
以上就是我对通义千问2.5版本的体验测试,总体使用下来的感受就是AI大模型进步的实在太快了。去年这个时候,老实说,包括ChatGPT在内的国内外很多大模型,在很多场景下还是挺难用的,最典型的就是理解不了我的问题,答非所问,或者一本正经乱说一通。
而今年,整个生成式AI的发展比起去年明显改善了不少,这其中国内以通义千问为代表的大模型,无论是在参数量级还是实际的表现来看,都进展神速。在某些场景和方向上,说赶超GPT4也绝不是吹牛。
一个好的人工智能,除了厂商训练之外,更重要的就是需要众多的用户参与其中用起来,这样模型的迭代才可以进入良性循环。通义千问2.5目前免费开放中,大家可以来体验一波,为国产大模型的发展一起助力!
通义千问的使用地址放这里啦,大家可以复制到浏览器访问,或者直接戳文末的阅读原文一键直达:
https://tongyi.aliyun.com/qianwen/