300亿参数!苹果大模型首次曝光
导读
放弃造车后的苹果,正在加速布局AI大模型。
来源 | 数据观综合(转载请注明来源)
今年以来,苹果显然已经加大了对生成式人工智能的重视和投入。
在2024年初举行的苹果四季度财报会议上,苹果公司CEO蒂姆·库克表示,今年将在AIGC领域实现重大进展。
2月29日,彭博报道称,苹果公司结束了长达10年之久的造车项目“泰坦计划”,计划将汽车项目的部分员工转移到 AI 团队,促使整个苹果押注 AIGC 新浪潮。
如今,苹果终于公布了首份研究成果。
苹果公司通过一篇名为《MM1:Methods, Analysis & Insights from Multimodal LLM Pre-training》的研究论文,正式官宣了其在多模态大模型(Multimodal Large Language Models,简称 MLLMs)领域的研究成果。
论文显示,MM1模型拥有高达300亿的参数规模,不仅在预训练指标中实现 SOTA,而且具备密集模型和混合专家(MoE)变体架构等,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。
为什么苹果要发布这样一篇实验性的技术论文?
目前,语言模型主要有闭源和开源两种路线,闭源模型中,人们对数据、模型架构、训练细节知之甚少。开源模型虽然会发布数据、模型、训练的细节,但是也不会发布任何模型算法设计以及工程化的细节信息。
苹果想打破这种局面,提出让大模型构建的过程变得“更透明”的路线,这是苹果为什么将各种模型训练的细节公开,发布这篇论文的原因。
苹果300亿多模态大模型MM1杀入场
和市面上其他大模型相比,MM1亮点并不在惊艳的效果上,也没有提出特别的技术路线,而是通过控制各种变量,做实验,找出影响模型效果中关键因素。在测试中,MM1-30B-Chat在TextVQA、SEED和MMMU上的表现优于Emu2-Chat37B和CogVLM-30B,但是表现不如谷歌的Gemini和OpenAI的GPT4V。
论文表明,研究团队通过深入和全面的剖析图像编码器、视觉 - 语言连接器以及各种预训练数据选择,发现了几个关键的设计经验。例如,他们展示了在大规模多模态预训练中使用精心混合的图像 - 文字对、交错的图像 - 文本和纯文本数据是实现多个基准测试中最先进(SOTA)的少量样本结果的关键。
此外,他们还展示了图像编码器、图像分辨率和图像标记数量对性能有重大影响,而视觉 - 语言连接器的设计相对而言影响较小。
通过扩大展示的配方,他们构建了 MM1 系列多模态模型,包括密集模型和专家混合(MoE)变体,这些模型在预训练指标中实现了 SOTA,并且在监督微调后在一系列既定的多模态基准测试中表现出竞争力。得益于大规模预训练,MM1 具有吸引人的特性,如增强的上下文学习能力和多图像推理能力,使其能够通过少量样本提示进行思维链推理。
该论文为业界详细展示了他们的实验方法:
● 架构方面:研究团队考察了多种预训练图像编码器,并探究了不同方式下,这些编码器与语言模型(LLMs)的整合策略。
● 数据处理:分析了多种数据类型及其在模型训练中的相对重要性,以确定它们的混合权重。
● 训练策略:详细讨论了多模态大型语言模型(MLLM)的训练过程,包括超参数设置以及模型的哪些部分应当在何时进行训练。
通过在这些关键领域进行的实证实验和简化,苹果公司成功评估了不同配置下模型的性能,最终确定了最优的模型与数据配置方案。
最终确定 MM1 多模态预训练的配方如下:
● 图像编码器:考虑到图像分辨率的重要性,APPLE 使用了一个在 DFN-5B 上用 CLIP 目标预训练的 ViT-H 模型,分辨率为 378x378px。
● 视觉 - 语言连接器:由于视觉令牌的数量最重要,APPLE 使用了一个具有 144 个令牌的 VL 连接器。实际的架构似乎影响较小,APPLE 选择了 C-Abstractor。
● 数据:为了保持零样本和少量样本的性能,APPLE 使用了以下精心混合的数据:45% 交错的图像 - 文本文档、45% 图像 - 文本对文档和 10% 纯文本文档。
值得注意的是,MM1 目前还没有公测,官方也没有公布上线时间表,要评估其具体的技术水平可能还需要很长一段时间。
苹果的AI布局
在近两年AI浪潮之下,苹果一直被诟病行动缓慢,早些年推出的Siri远远不能满足用户的需求,与微软谷歌等科技巨头相比,苹果更是逊色不少。
此前,在苹果年度股东大会上,库克没有透露苹果的AI进展,但他曾表示,目前使用苹果AI技术的设备包括Vision Pro(手部追踪)和Apple Watch(心率警报)。他同时称,每一台使用苹果芯片的Mac都是一台功能异常强大的AI机器,目前市场上没有比它更适合AI的电脑。
值得注意的是,苹果在AI领域已经有不少布局,在多方面投资或研究AI,包括硬件采购、内部AI模型构建,以及研究如何在小型设备上运行AI。
早在2017年6月,苹果公布了CoreML框架。CoreML旨在将预先训练的AI模型部署到苹果设备的各种应用程序中。外媒认为,这是苹果曾经被动参与生成式AI的最初路径。
而专门在Apple芯片上用于机器学习的开源阵列框架MLX的推出代表着苹果的态度从被动参与到主动开发的转变。于去年12月发布的MLX专为机器学习研究人员设计,旨在有效地训练和部署AI模型。这在某种程度上表明了公司对生成式AI的野心。
大型语言模型方面,去年7月,彭博社曾爆料,苹果已经建立了大语言模型框架“Ajax”,并且基于Ajax创建了聊天机器人服务,一些工程师称之为“苹果GPT”。去年10月,苹果与康奈尔大学的研究人员共同开发了多模式AI模型 Ferret。
除了构建AI框架和基础模型之外,苹果正在与外部合作伙伴合作,推进生成式AI的开源能力。与此同时,苹果还在豪掷千金积极采购芯片。
知名苹果分析师郭明錤称,苹果在AI服务器方面进行了大量投资,2023年采购了2000-3000台,公司计划在2024年额外采购18000-20000台,占全球AI服务器出货量的5%。据称,苹果2023年用于AI服务器采购的支出至少达到 6.2 亿美元,预计到 2024 年,这一数字将达到 47.5 亿美元。苹果购买的AI服务器主要为最常见的英伟达HGXH1008-GP。
另一方面,苹果在收购AI初创公司上可以说是“遥遥领先”。
据统计,从 2010 年收购 Siri 开始,苹果在 10 年时间里收购多达 30 多起 AI 初创公司。自 2017 年以来,苹果收购了 21 家人工智能初创公司,几乎是微软和 Meta 收购数量的两倍,可以称得上“AI 头号买家”。2021 年起,苹果收购 AI 公司的节奏看起来有所放缓,但依旧拿下了Curious AI、 AI Music、WaveOne 等初创 AI 公司。
据硅谷科技评论(svtr.ai)数据统计,2023年的近千位获得融资的AI创始人中,其中17 位连续创业者之前的创业的公司都是出售给苹果。
Stocklytics金融分析师Edith Reads评论称,在持续的AI军备竞赛中,苹果正在与许多AI初创公司进行大规模交易,主要为了在未来发展中占据有利位置。通过收购有前景的AI初创公司,苹果获得了顶级人才和核心创新技术,并在关键的AI领域巩固了其地位,确保在迅速变化的技术环境中保持竞争优势。苹果的投资策略侧面凸显了苹果在AI领域的关注重点,包括AI人才、关键技术和知识产权。
iPhone 的 AI 时刻何时到来?
根据 Counterpoint Research 发布的《生成式 AI 智能手机出货量洞察》报告预估 ,2024 年会成为生成式 AI 智能手机的关键元年,预估出货量将达到 1 亿台。
作为手机行业的巨头,苹果的动态深受关注,iPhone的更新更是备受瞩目。
近期,根据彭博社透露,苹果的生成式AI可能会集成在今年发布的iOS 18上,这将会比iPhone 16的升级更具看点。彭博社透露,iOS 18将会是一个开创性的重大更新,对系统的改动远超iOS 15、iOS 16和iOS 17。iOS 18将会给iPhone带来全新系统设计与导入更多新功能,同时还会增强性能与安全性,对比旧款会有极大差异。
与此同时,彭博社也再次透露,今年早些时候,苹果已收购 DarwinAI公司,进一步扩充其在AI领域的实力。据悉,这家公司的两大核心技术分别是在制造过程中检查零部件的AI技术,以及使用机器学习打造更小更高效的AI系统,这对于苹果开发iOS 18的相关AI功能有着重要的影响。
此外,The Information 报道也指出,苹果计划将大型语言模型整合到 Siri 中,让用户可以自动化复杂的任务,这一特性涉及与快捷键应用的深度集成。该报道称,该特性预计将在 2024 年的 iPhone 软件更新中发布,可能是 iOS 18。
在今年苹果公司最新一季财报电话会议上,蒂姆·库克已经明确表示,苹果正在研究生成式 AI,并计划在“今年晚些时候”分享更多详情。这可能指的是在 WWDC2024 开发者大会(预计6月召开),届时苹果将展示最新的 iOS/iPadOS 18、macOS 15 等系统更新。
▐ 风口洞察
▐ 行业报告
▐ 国际要闻
▐ 数据观出品