查看原文
其他

突发!苹果、腾讯同日公布全新大模型研究论文,中美 AI 技术竞争加速|钛媒体AGI

林志佳 钛媒体AGI
2024-09-05

苹果终于加入了人工智能(AI)大模型战场。

钛媒体App获悉,3月15日,美国科技巨头苹果公司的 AI 研究人员在Arxiv上发表最新研究论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》,正式公布自家的多模态大模型MM1。

论文显示,MM1模型拥有高达300亿的参数规模,不仅在预训练指标中实现 SOTA,而且具备密集模型和混合专家(MoE)变体架构等,在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。

不止是苹果。中国的腾讯公司(Tencent)也在今天宣布,该公司和清华大学、香港科技大学联合推出全新图生视频模型 “Follow-Your-Click”,与其他模型相比,腾讯新模型操作更便捷、动画内容更丰富,目前已上架GitHub,代码将于4月公开,同时还发表了一篇研究论文。

据钛媒体App获悉,这是腾讯混元团队发布的首个 AI 图生视频模型论文。

从美国苹果到中国腾讯,AI 大模型领域的竞争持续加速。

苹果300亿多模态大模型MM1杀入场,论文超半数作者是华人


今年以来,苹果显然已经加大了对生成式人工智能(AIGC)的重视和投入。

在2024年初举行的苹果四季度财报会议上,苹果公司CEO蒂姆·库克(TimCook)表示,今年将在AIGC领域实现重大进展。

2月29日,彭博报道称,苹果公司结束了长达10年之久的造车项目“泰坦计划”,计划将汽车项目的部分员工转移到 AI 团队,促使整个苹果押注 AIGC 新浪潮。

如今,苹果终于公布了首份研究成果。

事实上,构建高性能的 MLLM(Multimodal Large Language Model,多模态大型语言模型) 是一项实践性极高的工作。相比其他模型,MM1的技术方案和过程逻辑有所不同。

根据论文,新的MM1高性能模型技术的核心要点包括架构、数据、训练过程三个方面。

首先是架构。

MM1大模型采用1.2B(12亿)的Transformer变压器解码器语言模型,在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 训练的 ViT-L/14 模型,并含 144 个图像 token的视觉语言连接器。而在预训练数据中,包括混合字幕图像(45%)、交错图像文本文档(45%)和纯文本(10%)数据三类。

同时,研究者在模型架构决策和预训练数据选择上进行小规模消融实验,并发现交错数据有助于提高少样本和纯文本性能等重要特点。

其次是数据。

通常,模型的训练分为两个阶段:预训练和指令调优。前一阶段使用网络规模的数据,后一阶段则使用特定任务策划的数据。

为了保持零样本和少样本的性能,MM1使用了以下精心组合的数据:45% 图像——文本交错文档、45% 图像——文本对文档,以及10%的纯文本文档。

研究者使用三种不同类型的预训练数据:图像字幕、交错图像文本和纯文本数据。他们发现,当涉及少样本和纯文本性能时,交错和纯文本训练数据非常重要,而对于零样本性能,字幕数据最重要。这些趋势在监督微调(SFT)之后仍然存在,这表明预训练期间呈现出的性能和建模决策在微调后得以保留。

最后是训练过程和最终结论。

研究人员表示,MM1模型系列包括三种参数版本:30 亿、70 亿、300 亿,均支持多模态、MoE架构。所有模型都是在序列长度为 4096、每个序列最多 16 幅图像、分辨率为 378×378 的情况下,以 512 个序列的批量大小进行完全解冻预训练的。所有模型均使用 AXLearn 框架进行训练。

而最后,研究者介绍了预训练模型之上训练的监督微调(SFT)实验。

他们遵循 LLaVA-1.5 和 LLaVA-NeXT,从不同的数据集中收集了大约 100 万个 SFT 样本,并采用扩展到高分辨率的 SFT 方法。

与SOTA相比较,MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型,在多个基准测试中超越了Gemini、通义模型等。同时,在3B-MoE和 6B-MoE下,苹果的 MoE 模型都比密集模型取得了更好的性能;另外,对于 30B 大小的模型,MM1-30B-Chat在多个测试上的表现优于 Emu2-Chat37B 和 CogVLM-30B。

整体来看,随着预训练数据的增加,模型的性能不断提高,苹果预训练模型 MM1 具有更强大的技术能力,在少样本设置下的字幕和问答任务上,MM1要比 Emu2、Flamingo、IDEFICS 表现更好。。监督微调后的 MM1 也在 12 个多模态基准上的结果也颇有竞争力。

得益于大规模多模态预训练,MM1 在上下文预测、多图像和思维链推理等方面具有不错的表现。同样,MM1 在指令调优后展现出了强大的少样本学习能力。

论文地址:https://arxiv.org/pdf/2403.09611.pdf

腾讯布局类Sora技术,中国 AI 大模型加速追赶


除了苹果,腾讯在今天也公布了首个图生视频技术。

3月15日,腾讯混元和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“,基于输入模型的图片,只需点击对应区域,加上少量提示词,就可以让图片中原本静态的区域动起来,一键转换成视频。

这是自OpenAI Sora爆火之后,腾讯 AI 团队公布的最新技术进展。

当前的图生视频大模型中,一般的生成方法不仅需要用户在提示词中描述运动区域,还需要提供运动指令的详细描述,过程较为复杂。另外,从生成的效果来看,现有图像生成视频技术在移动图像的指定部分上缺乏控制,生成的视频往往需要移动整个场景,而不是图像上的某一个区域,精准度和灵活性上有所欠缺。

为了解决这些问题,腾讯混元大模型团队、清华和港科大的联合项目组提出了更实用和可控的图像到视频生成模型Follow-Your-Click,带来更加便捷的交互,也让图片“一键点,万物动”成为现实。

据了解,本联合项目组中的腾讯混元大模型团队,正在持续研究和探索多模态技术。早前。钛媒体AGI报道了腾讯、阿里等多家互联网厂商的大模型技术产品,共50款。

事实上,随着美国OpenAI公司接连发布多款产品,引发全球新一轮 AI 热潮,中国 AI 大模型领域正加速追赶。

360创始人周鸿祎最近表示,中美在AI上的差距主要在于“确定技术方向”上,一旦方向确定,中国的优势是学习能力很快,中美在AI上的差距应该能在一两年内追上。

他强调,2024年或将成为中国在AI领域的“应用之年”,相信今年大模型将在许多企业的垂直领域大有可为,“中国现在要做出一个超过GPT4的通用大模型可能比较难,但在一些垂直领域超过GPT4,是完全有可能的。”

智谱AI CEO张鹏则表示,Sora让中美大模型差距再一次表面化。

张鹏强调,2024年一定是AGI元年,而多模态是AGI的一个起点。如果想要走到AGI这条路上去,只停留在语言的层面不够,要以高度抽象的认知能力为核心,把视觉、听觉等系列模态的认知能力融合起来,才是真正的AGI。

万水千山总是情,点个在看行不行


继续滑动看下一个
钛媒体AGI
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存