成立 8 个月融资 5 亿美金,Mistral 推出了最“狂野”的大语言模型
随机导读
作为大语言模型(GenAI)的新秀,Mistral AI 在 8 个月的时间内就募集了超过 5 亿美金的融资金额,同时推出了基于 MoE 的SMoEs的模型,在提升算力的前提下降低了成本。Mistral AI 的创始人&CEO Mensch 认为基础
这篇文章分享了 Mistral AI 创始人对 AI 大模型的思考、基础模型的管理权限、Mistral AI 的愿景以及 Mistral AI 的盈利情况,希望对你有所帮助。
文末我们整理了几篇关于 MoEs 的论文及文章,如果对此感兴趣也欢迎学习。
本文翻译来自:https://www.turingpost.com/p/mistralai
这家名为 Mistral AI 的法国初创公司于 2023 年 4 月成立,它设定了一个宏伟目标:挑战欧洲联盟在科技领域的统治地位。这家公司引起了公众的广泛关注,有的人对其赞赏有加,而有的人则持怀疑态度。Mistral AI 最引人注目的特点是他们对开源技术的重视以及他们的大胆做法 —— 他们推出的模型完全没有安全控制措施。
据 AI 安全研究员 Paul Röttger 和 404 Media 进行的测试,他们整理出了一个包含 178 个问题和答案的清单(可以在文末查看),显示出 Mistral AI 的模型提供了一些颇具风险的建议。这些由 Mistral AI 模型生成的内容引发了关于道德的热烈讨论,涉及的话题从种族清洗到逆向歧视,甚至还有一些令人不安的 DIY 主题。
到了 2023 年 12 月,Mistral AI 自成立以来仅 7 个月,就迅速崛起,成为估值超过 20 亿美元的 GenAI 独角兽公司。他们还推出了一款非常规的开源模型 ——Mixtral 8x7B。这款模型采用了稀疏专家混合技术(Sparse Mixture-of-Experts, SMoE),并通过一个种子链接(torrent link)发布,这在业界可谓前所未有。那么,这些大胆的法国创新者是谁?他们的动力何在?为什么 Mixtral 模型如此高效?谁在支持他们,又是出于什么原因支持?接下来,我们将一探究竟。
#1 Mistral AI 的起点
“基础技术的故事还在续写中。我们还有很多创新需要实现。这正是我们现在所做的,”Mensch 在接受 Sifted 采访时表示。“这也是我们为什么离开了那些缺乏创新的公司 —— 这就是我们创立 Mistral AI 的原因。”
Arthur Mensch(首席执行官)与他的联合创始人 Timothée Lacroix(首席技术官)和 Guillaume Lample(首席科学官)都曾在法国著名的理工学院 École Polytechnique 和师范高等学校 École Normale Supérieure 学习。
Lacroix 和 Lample 都是在 2014 年作为实习生加入 Facebook,并最终在 Meta 的巴黎 AI 中心找到了自己的位置。Mensch 于 2020 年加入了 DeepMind 的巴黎办公室,专注于大语言模型(Large Language Modeling)、多模态模型(Multimodal Models)和信息检索(Retrieval)。根据他们的首位领投者 Lightspeed Venture Partners 所说,“在 DeepMind 期间,Arthur 在 Retro、Flamingo 和 Chinchilla 项目中做出了重要贡献,这些经历使他在优化大语言模型方面积累了丰富的经验。而 Guillaume 和 Timothée 则联手领导了 LLaMa LLM 的开发。”
接着,这些朋友开始深入探讨人工智能的未来走向,以及他们如何能够打造一个值得信赖的开源替代方案,使欧洲,尤其是法国巴黎成为这一领域的重要中心。
Mensch 解释道:“在欧洲,很多参与者不愿意依赖美国的供应商。我们认为,这里存在一个地理优势,我们愿意加以利用。” 他们意识到,通过打造一个本土的 AI 中心,不仅可以减少对美国供应商的依赖,还能在欧洲 AI 市场上占据有利地位。
#2 创始人的愿景
最近,包括 Meta 的 Yann LeCun 和 Hugging Face 的 Clément Delangue 在内的法国 AI 界领袖在推特上积极推广法国的科技成就。他们的努力在 Meta、Hugging Face 与 Scaleway 在巴黎 Station F 的合作达到顶峰,这标志着全球科技格局的一个重要转变。凭借其在学术上的卓越表现和政府的支持,法国正努力成为一个有潜力的开源人工智能中心。
Mistral AI 恰好符合这一发展趋势。他们的网站详细解释了这三位创始人为何建立 Mistral AI—— 强调由社区支持的模型开发来对抗审查和偏见,同时提供开放权重模型作为对抗 AI 寡头垄断的可信替代方案。不过,这看起来更像是创始人 Mensch、Lacroix 和 Lample 凭借他们的专业知识,在恰当的时间和地点取得了成功。
然而,一个问题仍然悬而未决:在欧盟计划对 AI 实施严格控制的背景下,以及开源模型在此环境中地位尚不明确的情况下,Mistral AI 将如何应对这些挑战?
#3 创始人对 AI 风险的看法
最近,在英国布莱切利公园举行的科技领袖聚会上,有一张面孔从硅谷人群中脱颖而出。在 AI 安全峰会上,Mistral AI 的首席执行官 Mensch 是唯一的欧洲声音,在第二天更为亲密的会议后与其他大约 30 名高管交谈,这与前一天 100 人群体讨论的情形形成了鲜明对比。他是唯一一个公开发声讨论公司工作的联合创始人。
他的立场是,基础模型(foundation models)主要是开发者的工具,确保安全使用的责任应由开发者承担,而不是创建这些模型的初创公司。在一条长推文中,Mensch 澄清说他们反对对基础模型本身进行监管,将其比作不因潜在滥用而监管 C 语言。相反,他们主张对 AI 应用的使用进行监管。Mistral AI 批评 AI 法案对系统性风险的处理方式以及其确定模型能力的不明确分类。他们认为,当前的 AI 法案可能通过在大型合规公司和小型创新公司之间创造分歧,阻碍欧洲 AI 生态系统的发展。
值得一提的是,当有人指出模型缺乏保护措施(发布了如何向模型添加保护措施的说明,以避免这种情况)或抱怨它们不够开放时,Mistral AI 会立即作出反应。
但是,Mistral AI 在 Hugging Face 上的页面表示,“Mixtral-8x7B Instruct 模型是一个快速展示,表明基础模型可以轻松地进行微调,以实现令人信服的性能。它没有任何内容审核机制。我们期待着与社区合作,找到方法使模型精确遵守保护措施,从而允许在需要内容审核输出的环境中部署。”
#4 融资状况
2023 年 6 月成立仅一个月的 Mistral AI 便筹集到了 1.13 亿美元的种子轮融资,显示出其与 OpenAI 等行业巨头在 AI 领域竞争的决心。随后,公司宣布计划利用这笔资金来组建一个 “世界级团队”,旨在开发 “最优秀的开源模型”。
2023 年 12 月 Mistral AI 完成了一笔惊人的交易,筹集了大约 4.15 亿美元资金,公司估值超过 20 亿美元。
投资者显然认为 Mistral AI 是欧洲在当前极具发展潜力的生成式 AI(Generative AI)领域中立足的一个重要机会。
#5 他们用了四个月时间推出首个大语言模型
2023 年 9 月,Mistral AI 推出了其首个 AI 模型,名为 Mistral-7B。这个模型在网上发布后,迅速吸引了广泛关注,人们纷纷想要尝试。用户可以通过互联网的各个平台获取这个模型,包括种子链接、GitHub 和 Discord。他们还创建了一个采用 Apache 2.0 许可证的代码库,这个许可证非常宽松,用户只需注明来源,便可自由使用或复制。只要用户能处理技术上的需求并支付云计算资源的费用,就可以开始使用这个模型。
这个高性能模型不像 LLaMA 2 那样大量消耗资源,但据一些标准基准测试,它提供了相似的结果。尽管全球的 GPT 模型性能可能更好,但它们只通过 API 提供服务,且运行成本更高。
Mistral 的这个项目不仅仅是一个周末的黑客马拉松作品,团队投入了四个月的时间、精力和代码来打造它。他们从头开始构建这个模型,精心调整了他们的机器学习操作流程(MLOps)和数据处理流程。
#6 Mixtral – 理解 SMoE 架构及其高效的原因
Mistral AI 的首个成果 Mistral 7B 是一个具有 70 亿参数的语言模型,专为高性能和效率而设计。它在多项基准测试中超越了现有模型,如 Llama 2(13 亿参数)和 Llama 1(34 亿参数),尤其在推理、数学和代码生成方面表现突出。它的架构采用了分组查询注意力机制(Grouped-Query Attention, GQA),以加快推理速度,同时使用滑动窗口注意力机制(Sliding Window Attention, SWA)更有效地处理长序列,从而降低了计算成本和推理延迟。
9 月份,曝光的消息显示,Mistral 的 7B 模型在训练过程中大约需要 200,000 个 GPU 小时。考虑到 NVIDIA 的云 GPU 每小时大约 2 到 2.5 美元的费用,Mistral-7B 的计算成本估计在 40 万到 45 万美元之间。作为对比,规模更大的 GPT-4 模型的训练成本超过了 1 亿美元。虽然 Mistral 在数据和算法开发上的具体做法并未完全公开,但首席执行官 Arthur Mensch 暗示了公司在这两方面进行了重大投资,以优化模型性能。
但他们去年 12 月通过种子链接发布的最引人注目的模型是我们之前提到的 Mixtral 8×7B。
这个新模型融合了稀疏专家混合 (Sparse Mixture-of-Experts, SMoE) 架构,这与传统的单体(密集)Transformer 模型有所不同。SMoE 方法允许 Mistral 高效地将特定输入引导到网络中指定的专家,增强了多任务处理和学习能力。如上图所示,Mixtral 8x7B 在大多数评估中胜过了像 Llama 2 70B 这样的模型,并提供了六倍更快的推理速度,使其成为市场上最高效的开放权重模型之一。该模型还在法语、德语、西班牙语、意大利语和英语的测试中表现出色。
SMoE 是混合专家 (Mixture-of-Experts, MoE) 模型的一部分。它运作在一个由多个 “专家” 子模型组成的系统上,每个专家都专注于不同的数据子集或问题方面。关键是,对于任何输入,它只使用少数几个专家,保持了效率和可扩展性。
SMoE 的关键在于其动态路由算法。这个算法通常是一个神经网络本身,它确定了给定输入的最相关专家,有效地集中计算资源。这种方法使得 SMoE 模型能够处理包含多种数据类型的复杂任务,从而提高整体性能。
SMoE 的架构之所以高效,主要是因为它的稀疏性,使其能够比传统的密集模型更有效地扩展到大量参数。
Mixtral 8x7B 的架构特点在于它的仅解码器模型和一个从八组参数中选择的前馈块。得益于这种架构,Mistral 能够使用一个规模比 70 亿参数训练的模型小 10 倍的模型进行竞争。根据他们的网站,“Mixtral 拥有 46.7 亿总参数,但每个 Token 仅使用 12.9 亿。它处理输入和生成输出的速度及成本与 12.9 亿模型相同。”
Mixtral 激动人心的一点是,它证明了 MoE 在更小规模的硬件上也可以有效,这些硬件实际上对开发者来说是可访问的。Mixtral 8x7B 及其指令优化版本 Mixtral 8x7B Instruct 均可在 Apache 2.0 许可证下免费获取。
#7 Mistral 如何盈利?
截至目前,Mistral 尚未开始盈利。
当你尝试使用它的服务时,会出现这样的提示:“感谢您对 Mistral AI 的关注!您的账户几乎已经设置好,但您目前仍在等待名单上,以使用我们的平台。”
在之前,他们的网站曾表明:“我们将提供专为本地部署或虚拟私有云部署优化的专有模型。这些模型将作为白盒解决方案提供,既公开权重也开放源代码。我们目前正在积极开发面向企业的托管解决方案和专用部署。”
目前,这家公司正依靠在短时间内获得的大量资本进行运营。
#8 结论
Mistral AI 代表了大语言模型领域一种大胆的新方向,象征着开源人工智能技术的重大进步。它正在努力成为生成式 AI 领域的颠覆性力量,挑战现有的规范和科技巨头,并激发了关于正确监管方式的讨论。他们迅速崛起为 GenAI 独角兽公司,并推出了像 Mixtral 8x7B 这样的创新模型,这突显了他们在创新和开源精神上的战略性融合。
然而,他们的做法也引发了一些争议,特别是围绕模型的真正开放性和没有安全措施的 AI 可能带来的更广泛影响。Mistral AI 的故事体现了 AI 发展的动态性和常常引起争议的特点,提出了技术进步与负责任 AI 治理之间平衡的关键问题。随着他们继续前进,Mistral AI 对欧洲 AI 领域的影响,以及他们在塑造全球 AI 伦理和开源模型讨论中的作用,将是值得关注的关键领域。他们的故事是 AI 发展和对社会影响叙述中的一个重要篇章。
Hi,感谢看到最后,我是小鱼,如果对文章 / 案例感兴趣,或者是相关领域的从业 / 创业者,无论你在任何地区和时区,欢迎加我们微信 JKtheSeeker(请备注称呼+公司),see you on the cloud!
参考资料:
https://docs.google.com/spreadsheets/d/1nzhxHNN5Wzese3ItND_RWjbl1hqC1XF5CtEd9zNK5Hg/edit?ref=404media.co#gid=0
https://huggingface.co/blog/moe#what-is-sparsity
https://machinelearningmastery.com/mixture-of-experts/