查看原文
科技

重磅!Mistral 发布Large 2 123B大模型PK Meta王炸,网友:疯了疯了都疯了

尹小军 AGI Hunt
2024-07-25

我们可能正在见证一场AI界的地震。

不是地震,是特么的海啸!

昨天Meta发布的Llama 3.1 还没消停,就在刚刚,法国AI公司Mistral又杀出来,宣布了自家Large 2 123B大作

这次新模型可是下了血本啊:

  • 123B参数,比上代70B足足翻了近一倍

  • 128K上下文窗口,长文处理不在话下

  • 支持11种语言,包括中文、日语、韩语等

  • 训练了80+种编程语言,连Swift和Fortran都有

  • 原生支持函数调用结构化输出

看到这些参数,有网友直呼:

那些疯狂的开源混蛋真要赢了哈哈哈哈,这是最好的时间线!

Image 2: Detailed benchmarks

从官方放出的性能数据来看,这次真有点东西

  • MMLU:84.0% vs 79.3% (70B) vs 85.2% (405B)

  • HumanEval:92% vs 80.5% (70B Ins) vs 89% (405B Ins)

  • GSM8K:93% vs 95.5% (70B Ins) vs 96.8% (405B Ins)

也就是说,在某些任务上,这个123B的模型已经能和Llama 3 405B掰掰手腕,几乎平手了!

有网友看到这个结果直接惊呼:

改个许可证你就偷走了Meta的整个策略。值了。

不过话说回来,对硬件要求也是杠杠的:

  • fp16/bf16:约250GB显存

  • fp8/int8:约125GB显存

  • int4:约60GB显存

昨天刚被Meta 炸,今天又被Mistral 震,网友真的麻了,称:

这是我试图跟上开源AI最新进展的样子

除了常规的NLP任务,这次Mistral还在代码生成上下了大功夫。

Image 3: Detailed benchmarks
Image 4: Detailed benchmarks

从上面可以看出,在代码生成方面,新模型甚至超过了GPT-4

有网友对此表示期待:

Mistral的前作Codestral Mamba就很强,这次的Large 2肯定会在复杂代码生成上更厉害。

Image 5: Detailed benchmarks

在数学推理方面,新模型也有不俗表现。GSM8K和MATH两个基准测试上,都和顶级模型不相上下。

除了性能,Mistral还特别强调了模型的指令跟随能力对话能力

Image 6: Detailed benchmarks

从MT-Bench、Wild Bench和Arena Hard这几个基准测试上看,新模型在这方面也是相当能打

不过Mistral还特别提到了一点:

在某些基准测试中,生成较长的回复往往会提高分数。然而,在许多商业应用中,简洁至关重要 - 简短的模型生成有助于更快的交互,并且在推理方面更具成本效益。

Image 7: MT Bench benchmarks

在MT Bench基准测试的问题上,Mistral Large 2的平均生成长度明显短于其他模型

这一点确实很有意思。毕竟在实际应用中,又快又准才是王道。

在多语言能力方面,新模型也是相当给力

Image 8: Detailed benchmarks
Image 9: Detailed benchmarks

从多语言MMLU基准测试结果来看,Mistral Large 2在各个语种上都有不错表现,尤其是在法语、德语和西班牙语上

最后,在工具使用和函数调用方面,新模型也是下足了功夫

Image 10: Detailed benchmarks

可以看到,Mistral Large 2在这方面甚至了GPT-4和Claude 3!至于有没有超过Llama 3.1,估计是时间撞车了,没来得及评吧!

看到这里,有网友调侃道:

Llama 3.1,接好我的啤酒...

确实,这波Mistral来得又快又猛,Meta这边估计得加把劲儿了。

不过也有网友表示担心:

把许可证改成Apache 2.0或类似的,你就赢了。

毕竟目前Mistral Large 2是在Mistral Research License下发布的,这个许可证只允许研究和非商业用途。

Image 11: Detailed benchmarks

总的来说,这次Mistral的新作确实又双叒叕一次给开源AI界带来了巨大震动。

有网友直呼:

7月似乎是开源的好月份!

确实,从Llama 3到Mistral Large 2,再到之前的Claude 3,这波AI界的"夏日大狂欢"真是一波未平一波又起啊!

而网友 弗洛里安 S @airesearch12 在惊呼:

太棒了!Meta发布Llama 3.1的一天后!🔥

的同时也不忘手动艾特一波OpenAI:

@OpenAI 赶紧发布GPT-5吧,如果你们真的有的话(我开始怀疑了——越来越觉得你们只是把它改名为GPT-4o,因为它不够强大)。

看来,Sam Altman 是该努力一把了!

那么问题来了,你更看好哪家呢?

欢迎在评论区留言讨论~

相关链接

[1] https://mistral.ai/news/mistral-large-2407/

[2https://huggingface.co/mistralai/Mistral-Large-Instruct-2407

👇

👇

👇

👇

本文同步自于知识星球《AGI Hunt》

星球实时采集和监控推特、油管、discord、电报等平台的热点AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

  • 每天约监控6000 条消息,可节省约800+ 小时的阅读成本。

  • 每天挖掘出10+ 热门的/新的 github 开源 AI 项目

  • 每天转译、点评 10+ 热门 arxiv AI 前沿论文

星球非免费。定价99元/年,0.27元/天。

  • 一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;

  • 二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。

欢迎你的加入!

修改于
继续滑动看下一个
AGI Hunt
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存