Meta的最强开源大模型Llama 3,被云厂商冷落了,企业也不想买单。
作者 | 硬 AI
编辑 | 硬 AI
近日,据外媒The Information报道,Meta的开源大模型Llama 3一直难以在全球最大云厂商——亚马逊的AWS上获得关注。
AWS为其企业客户竭尽所能的提供各种大模型服务,目前,Anthropic的闭源大模型Claude是该平台最受欢迎的模型。令人意外的是,虽然在技术圈评价颇高,但企业客户对Meta的Llama似乎并不认可。在微软Azure云平台上,Llama同样被冷落。The Information援引一名微软员工的消息称,微软的销售人员只会向具备数据专业知识的客户推销 Llama,比如内部有工程师和数据科学家的公司。Meta发布的最新最强模型Llama 3.1 发布已月余,市场反应格外冷淡。Llama 3.1发布1个月,Hugging Face下载量累计360万次,远低于Llama 3发布首月的580万次下载量。为开发Llama系列模型,Meta投入了重金,单是买GPU花费就耗资几十亿美元——显然,研发成本都需要见到财务回报。不过,如果使用量不佳,再强的开源大模型价值也会打折。为什么性能最强,且以开源著称的Llama,企业却不买单?
真相是,虽然Llama是免费的,但很多开发者还是愿意花钱使用闭源模型,因为羊毛出在猪身上,使用Llama的成本,有时候比使用OpenAI的GPT这类闭源模型的成本更高。免费的才是最贵的。今年4月,在Llama 3发布70B和400B模型后,一位做智能体方向创业的美国AI创业者Arsenii在采访中大吐槽,看似免费的Llama 3,用了后发现根本使不起。Arsenii发现,自己的公司运行开源大模型的效率远低于使用闭源大模型。蹚坑之后,他总结出了2点,一是开源大模型不像做好了精调和商业化适配的闭源模型那样拿来就能用,企业还要做优化、做精调,对技术团队的要求更高。二是开源模型下载下来才能用,参数庞大的百亿、千亿量级模型对本地的IT设施要求极高,而中小公司普遍缺乏与之相匹配的IT设施建设。在 Llama 3.1推出后,不少业界人士也提出了同样的问题,虽然 Llama 3.1 比前代产品更智能,但中小型企业部署它的成本过于昂贵。半导体研究公司 SemiAnalysis 首席分析师 Dylan Patel 算了一笔账,Llama 3.1 405B 的运行成本极高,需要两台英伟达的H100服务器才能运行。而租两台 H100 服务器一年需要30 万美元以上,对小公司来说,这是一笔很难承担得起的支出。国内,百度创始人李彦宏曾谈到过开源、闭源谁更符合企业服务市场需求的问题。在上个月的WAIC上,他提出的一个观点更是引起不少共鸣——开源模型在学术研究、教学领域有一定价值,能够让学术界更熟悉大模型的工作机制、形成理论。但在大多数的规模化应用场景中,开源模型并不合适,尤其是在激烈的商业化竞争中,只有闭源模型,才能让企业的业务效率更高、成本更低。除了成本,企业用大模型另一个最关注的问题就是性能了。那么,在性能上,开源和闭源模型谁更能打?
近期,业界最有影响力之一的大模型评测基准-斯坦福大学的MMLU评测(大规模多任务语言理解)发布的最新榜单显示,排名前十的模型中,仅有Llama 3.1为开源,其余9款上榜模型均为闭源。事实上,Llama 3这样强大开源模型的出现虽然激发了开源社区的热情,但开源模型创新的速度却令人担忧。一个原因就是现在所谓的模型开源并非真开源。不久前Nature 杂志编辑 Elizabeth Gibney刊文犀利指出了当前AI开源界存在的“开源洗白现象”,许多声称开源的 AI 模型,实际上在数据和训练方法上并不透明,例如号称坚定开源的Meta,实际上只开放了Llama的权重,真正的代码依然是『黑箱』。这种与以“开放源代码”为核心的开源理念相悖的所谓开源,很难做到众人拾柴火焰高,取得像Linux般的成功,这将严重阻碍开源创新。除了在参数上追赶闭源大模型,开源模型还要不断在应用中锤炼性能,但开源背后高昂的隐形成本无疑令企业止步。长此以往,开源模型与闭源模型之间的差距只会越拉越大,开源模型会越来越落后。
* 转载、合作、交流请留言,线索、数据、商业合作请加微信:IngAI2023* 欢迎大家在留言区分享您的看法,如果您能点个👍并分享的话,那就太感谢啦!