查看原文
其他

如何看待谷歌开源大模型 Gemma:被迫入局、开源力度不够、2024 会有小模型黑马出现

Founder Park Founder Park 2024-03-22

在 Meta、Mistral 之外,开源领域大模型,迎来了重磅玩家——Google。

2 月 21 日,谷歌推出了全新的开源模型系列「Gemma」(详细技术报告解读)。相比 Gemini,Gemma 更加轻量,可以视作 Gemini 的技术下放,同时保持免费可用,模型权重也一并开源了,且允许商用。

本次发布包含两种权重规模的模型:Gemma 2B 和 Gemma 7B。每种规模都有预训练和指令微调版本。Gemma 模型可以在笔记本电脑、台式机、物联网、移动设备和云端等多个主流设备类型上运行,基准测试成绩超 Llama-2。

如何看待谷歌这次发布开源大模型?对于 Meta、Mistral 等开源玩家,有什么影响?

以及,未来开源大模型的发展方向是什么样的?

出门问问创始人 & CEO 李志飞,和新浪微博新技术研发负责人张俊林对此发表了自己的观点和想法,Founder Park 授权转载。


李志飞

希望亡羊补牢未为晚也

看到 Google 开源了小的语言模型 Gemma,直接狙击 Llama 2,回顾去年 5 月对 Google 关于开源和竞争的看法,几点思考如下:

  1. 时间有点晚:相比于去年上半年就开源,现在可能要花数倍的努力进行模型的差异化以及推广的投入,才有可能在众多开源模型中脱颖而出。

  2. 开源力度不够:感觉这次开源还是被动防御和略显扭捏的应对之策,不是进攻。比如说,开个 7B 的模型实在是太小儿科了,一点杀伤力都没有。应该直接开源一个超越市场上所有开源的至少 100B 的模型、1M 的超长上下文、完善的推理 infra 方案、外加送一定的 cloud credit。是的,再不歇斯底里 Google 真的就晚了。面对 OpenAI 的强力竞争,只有杀敌一千、自损一千五。

  3. 未放下高贵的头颅:有种感觉,Google 觉得自己还是 AI 王者,放不下高贵的头颅,很多发布都有点不痛不痒,还是沿着过去研发驱动的老路而不是产品和竞争驱动,比如不停发论文、取新名字(多模态相关模型过去半年就发了 Palme、RT-2、Gemini、VideoPoet、W.A.L.T 等)、发布的模型又完整度不够,感觉就没有一个绝对能打的产品。Google 可能要意识到在公众眼中,他在 AI 领域已经是廉颇老矣溃不成军,经常起大早赶晚集(比如说这次 Sora 借鉴的 ViT、ViViT、NaVit、MAGVit 等核心组件技术都是它家写的论文)。

  4. 希望亡羊补牢未为晚也:Google 作为一个僵化的大公司,动作慢一点可以理解,但是如果再不努力是不是就是 PC 互联网的 IBM、移动互联网的 Microsoft?作为 Google 的铁粉,还是希望他能打起精神一战,AI 产业需要强力的竞争才能不停向前发展,也需要他在前沿研究和系统的开源才能帮助一大众「贫穷」的 AI 创业公司。

  5. 另外,除了对外开源外,Google 应该组成三个方阵面对大模型的竞争,详见去年 3 月发文。

回顾科技竞争史,PC 互联网时代的 IBM、移动互联网时代的 Microsoft、AGI 时代的 Google,新时代来临后,难道上一个时代科技霸主都难逃衰落的宿命?

当然,Microsoft 靠 Office SaaS、云和 OpenAI 又翻盘了。

历史的铁律,有被改写的可能吗?

文章转载自公众号「飞哥说 AI」



张俊林

2024 年开源 SLLM 会有黑马出现

关于 Google 开源 Gemma 的一些零散的看法:

  1. Google Gemma 代表谷歌被迫再次切入开源领域,谷歌重返开源赛场,这是个大好事,但很明显是被迫的。去年 Google 貌似已经下定决心要闭源了,这可能源于低估了追赶 OpenAI 的技术难度,Bard 推出令人大失所望使得谷歌不得不面对现实,去年下半年进入很尴尬的局面,闭源要追上 OpenAI 估计还要不少时间,而开源方面 Meta 已下决心,还有 Mistral 这种新秀冒头,逐渐主导了开源市场,这导致无论开源闭源,谷歌都处于被两面夹击,进退为难的境地。

    很明显,Gemma 代表谷歌大模型策略的转变:兼顾开源和闭源,开源主打性能最强大的小规模模型,希望脚踢 Meta 和 Mistral;闭源主打规模大的效果最好的大模型,希望尽快追上 OpenAI。目前大模型开源形成三巨头局面:Google Gemma、Meta LLama 和欧洲的 Mistral

  2. 目前大模型巨头混战,形成了打压链局面:OpenAI 处于链条顶端,主要打压对手是有潜力追上它的竞争对手:谷歌和 Anthropic,Mistral 估计也正在被列入 OpenAI 的打压列表中。这个打压链条是这样的:OpenAI→Google &Anthropic & Mistral→ Meta→其它大模型公司。

    Gemini 1.5 其实是很强的,但在宣发策略上被 OpenAI 临时拿 Sora 出来打哑火,没有获取应该获取到的足够公众关注,这就是典型的例子。前年年底发布的 ChatGPT 也是临时赶工出来打压 Anthropic 的 Claude 模型的。这说明一个问题,OpenAI 应该储备了一个用于打压对手的技术储备库,即使做得差不多了也隐而不发,专等竞争对手发布新产品的时候扔出来,以形成宣传优势,如果 OpenAI 判断对手的产品对自己的威胁越强,就越可能把技术储备库里最强的扔出来,比如 ChatGPT 和 Sora,都是大杀器级别的,这也侧面说明 OpenAI 比较认可 Gemini 1.5 和 Claude 的实力。

    而这种打压策略很明显还会继续下去,以后我们仍然会经常看到类似的情景,不巧的是,可能其它公司比如谷歌也学会这招了,估计也很快会传导到国内大模型公司范围里。所以 2024 年会比较热闹,估计会有不少大戏上演。

  3. 谷歌开源 Gemma 不是针对 OpenAI 宣发策略的反击,Gemimi 系列的定位才是对标 GPT 4 的。Gemma 是针对开源届的,也就是针对 Meta 和 Mistral 的,这侧面说明 Meta 的 LLama 3 很快就要发布了,或者 Mistral 最近会有新品发布。

  4. 关于 Gemma 的技术报告我觉得反倒没什么特别值得说的,如果要说的话,只是通过 Gemma 再次证明了,只要数据量足够多(Gemma 7B 用到了 6 万亿 Token,效果和 Mistral 7B 差不多,这也侧面说明了之前大家猜测 Mistral 7B 使用了大约 7 万亿 Token 的大概率属实),数据质量足够好(增加数学、代码、科学论文等增强模型推理能力的数据),小模型的能力仍然能够得到持续提升。

  5. 关于大模型的开源和闭源,我的判断是如果是做当前最强大的大模型,目前看还是要拼模型规模,这方面开源模型相对闭源模型出于明显劣势,短期内难以追上 GPT 4 或 GPT 4v,且这种类型的大模型,即使是开源也只能仰仗谷歌或者 Meta 这种财大气粗的大公司,主要是太消耗资源了,一般人玩不起,国内这方面阿里千问系列做得比较好,肯把比较大规模的模型开源出来,当然肯定也不是他们最好的,不过这也很难得了。

  6. 开源模型应该把主要精力放在开发并开源出性能足够强的小规模大模型上(SLLM,Small Large Language Model),我觉得谷歌的开源策略是非常合理的。目前看,作出强大的 SLLM 并没有太多技巧,主要是把模型压小的基础上,大量增加训练数据的规模,数据质量方面则是增加数学、代码等数据来提升模型的推理能力,比如 Gemma 7B 用 6 万亿 Token 数据,Mistral 7B 的 7 万亿 Token 数据,两者也应该大量采用了增强推理能力的训练数据,只要持续增加训练数据的规模和质量,模型效果会持续提升,所以 SLLM 模型的性能天花板目前也没有到头,只要有更多更高质量的数据,就能持续提升 SLLM 模型的效果,仍然有很大空间。

    而且 SLLM 相对 GPT 4 这种追求最强效果的模型比,训练成本低得多,而因为模型规模小,推理成本也极低,只要持续优化效果,从应用层面,大家肯定会比较积极地部署 SLLM 用来实战的,市场潜力巨大。也就是说,SLLM 应该是没有太多资源,但是还是有一些资源的大模型公司必争之地。

    我个人最近几个月在 SLLM 这方面关注度也比较高,我相信 2024 年开源 SLLM 会有黑马出现。

原文:https://www.zhihu.com/question/645303968/answer/3404606348




如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。




更多阅读

GPT、DALL·E、Sora,为什么 OpenAI 可以跑通所有 AGI 技术栈?

比 GPT-4 快 18 倍、自研芯片比英伟达 GPU 快 10 倍的 Groq,能否撼动英伟达?

7 万亿美元的芯片融资计划,Sam Altman 看到了什么,在害怕什么?

小伙子用ChatGPT找女友:聊了5239个女生,现在订婚了

开发者复盘:首个登上央视春晚的 AI 视频制作过程踩坑&技术分享

Perplexity CEO 专访:拥有十万用户的套壳产品比拥有自有模型却没有用户更有意义


转载原创文章请添加微信:geekparker
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存