怎么风平浪静的？多模态+Toolformer，这波还不原地起飞？

Original 做产品的马丁马丁的面包屑 2023-03-30

收录于合集 #AI科普 8个

前言

2月27日（前天），微软发布KOSMOS-1（MLLM），支持LLM进行图像内容的理解并对话，仅仅三天，目前在GitHub已经9.4K Stars。

如果你不明白9.4K是什么含金量，参照AI绘画的近一轮爆发ControlNet，可应用可落地的看得见摸得着的杀手级升级，目前累计10K Stars。

但我看到国内的大部分文章似乎都只是对这篇Paper的翻译和摘要，并没有对KOSMOS-1的出现有太炸街的反应。what？（黑人问号.JPG）

难以理解，算了。我自己写自己看，接下来这篇文章，无关技术，延续我的风格，先做简单科普，然后说明应用影响。

接下来的内容包括：

1. KOSMOS-1（MLLM）是什么（简要说明，其他文章有详细描述，你们搜之）
2. 技术上是怎么做到的（科普性讲解，不深入原理，没有公式）
3. 为什么我认为很重要

KOSMOS-1（MLLM）是什么

有英文&技术阅读能力的朋友可以直奔下面这两个链接，其他朋友继续跟着我的科普讲解走
paper：https://arxiv.org/pdf/2302.14045v1.pdf
GitHub：https://github.com/microsoft/unilm

MLLM，即Multimodal Large Language Model （多模态大语言模型）。

说白了，你以前只能和ChatGPT干聊，现在你能给他发美女，问他好看不，可以给他发段“乌梅子酱”，问他这音乐风格如何(paper未实现，只是理论上)，你甚至可以给他发表情包斗图。

上面这些例子，说白了就是——LLM能够理解图像+音频两种内容了，所以才叫多模态大语言模型（虽然paper里这个模型不大，就1.6B）。

接下来直接上图（不是全部），大家翻翻图片大概感受下，往下看技术科普篇。

总之他现在在很多图像类任务上的表现都优于/持平/略低于旧方法（不列举，自行加深学习）。

技术科普篇

有一些比较了解的朋友可能会说这有什么了不起的？我搞个多模态通路（指文转图、图转文、音频转文等）的工具，先把图片、音频转成文本，还不是一样的吗？

能不能搞呢？可以搞。事实上早就用人把CLIP和GPT绑到一起，实现了ChatGPT理解图片（输入图片先用CLIP转成文字，然后拿去和ChatGPT聊）。

一不一样？当然不一样。上面这种做法语言模型本质上还是在做一个文本类的任务。他仍然局限在自己的文字世界里。无法将语言模型的强大能力覆盖到多模态领域，他就像一个盲人，大象是摸出来的（CLIP）而非真正看见。

好，下面正式说说他是怎么做的：

1. 预训练数据

不止放文本数据进行，还把交错的文本、数据（例如网页，图文穿插），图像-图像注释数据（是的就是Diffusion用的那个）一起放进去做预训练（预训练是什么以前讲过）。

2. 大概逻辑

其中语言模型的本身能力，还是靠文本数据的学习得来的，包括对话中的上下文理解，各类NLP任务，支持Prompt等。然后交错的文本、图像数据、图像-图像注释数据，用来实现文本-图像这两个模态之间的对齐打通（我的理解是把CLIP这种跨模态通道的事情在大语言模型预训练中完成了，不一定对）。

3. 最后加点常规的小技巧

照旧是这个领域经典的Cot思维链，他们会把问题拆成小问题，再让模型回答，例如下图：先让他描述图片，然后再把图片描述作为Prompt一起加入对图片的问题中。

4. 其实还有个技巧

叫Language-Only Instruction Tuning，只针对语言指令进行微调。看起来似乎是专门强化了Prompt能力，但是我不太确定。

不过无所谓，不管是产品的身份，还是想用来做商业判断的角度，“亮独观其大略”的程度就够了。

为什么我说他非常重要？

第一，获得更丰富的知识

我们的人类的知识全来自文字吗？不见得吧？天是蓝的，猪是这样的^(*￣(oo)￣)^，周杰伦的歌是好听的，Lost Rivers是令人震撼的（强烈推荐，值得一听）。

获得多模态的输入能力有助于LLM更好理解这个世界，从而提升能力。

第二，扩大了任务范围

以前说LLM摧毁了NLP的中间任务（例如语法识别、NER等），现在他连图像理解任务也要摧残掉了——例子中有一个就是未经过OCR识别的文本，被KOSMOS-1理解并回答出了问题（下图左边第一个）。

其次机器人领域（图像理解+文字转行动命令），文档智能等领域的研究也拥有了新的可能。

第三，这种感知能力让它在图形界面层次（GUI）的交互成为可能。

大家用过一些集成ChatGPT的翻译、摘要、润色的插件工具时，常规操作是用指标选取一段文字，然后对这段文字进行提取，然后上传ChatGPT。而你可以截图，甚至不需要截图，交互方式大大提效（语言模型自动阅读整个屏幕内容）。

到这里，还没完，因为上面三个点全都来自论文原文。如果仅仅只是这样我也不会在这么忙的时候抽两个小时上来写东西。

首先，ToolFormer（虚拟终端）很重要

2月9日，Meta发布了Toolfomer，展示了LLM使用工具的可能，即理解用户的要求，明确什么时候应该调用外部工具，同时将任务转为API命令

我在《重磅：盘点7大方向，谁将诞生ChatGPT领域的尤里卡时刻》中着重说明了Toolfomer的重要性：

他意味着LLM不需要进一步去适配更多能力，可以将外面的工具化为自己的能力，整体能力大大提升；
2. 他的易交互性令他将成为连接所有工具的终端，这个终端就像PC、手机一样，只是这是一个虚拟的终端；
3. 围绕这个终端，所有的工具方（在这个角度来说，抖音也是工具）都需要按照LLM的标准进行接入，就像当初接入IOS一样。

然后，KOSMOS-1（MLLM）也很重要，上面已经说过了

最后，两者是不是可以加在一起？

语言模型的对工具侧的信息获取，可以通过对图像、音频的理解来快速获取，而不一定要靠工具通过API来提供结构化，但有缺失的信息。

语言模型对工具侧的命令输出，也可以不仅限于通过API提供有限，局部的操作，而是可以输出更丰富的信息维度（例如不仅仅是双击放大图片，而是双击放大图片到这个男生脖子吻痕位置）。

而Toolformer的学习，是否也可以不仅仅局限于人类命令-API结果这样的训练数据上，可以更进一步利用人类日常操作工具的录屏数据？

虽然上面的一些思考多少有些狂想吧，但好歹Paper发了，理论方向是成立的的呀，为啥大家反应这么平淡呢？

最后将论文中非常棒的一句话摘抄出来送给大家：

“The limits of my language means the limits of my world. ”

——Ludwig Wittgenstein

然后再送一句话

“短期内LLM不会涉足多模态生成，因为生成是生成，理解是理解，我上篇文章写的没错！”

——准备被打脸的马丁

愿本文对你有价值有启发~
然后你们转、点、看，我respect~
大家双赢，我赢两次（又沉淀了知识又涨粉）~

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

怎么风平浪静的？多模态+Toolformer，这波还不原地起飞？

您可能也对以下帖子感兴趣

《鱿鱼游戏2》今天下午四点开播，网友无心上班了，导演悄悄剧透

人民日报征集“中美友好合作故事”，令人感奋

刘恺威近况曝光，父亲刘丹证实已分手，目前失业在家，没有资源

紧急通告！三高的“克星”终于被找到了！！不是吃素和控糖,而是多喝它....

话费充值活动来了：95元充值100元电话费！

生成图片，分享到微信朋友圈

怎么风平浪静的？多模态+Toolformer，这波还不原地起飞？

您可能也对以下帖子感兴趣