查看原文
其他

怎么风平浪静的?多模态+Toolformer,这波还不原地起飞?

做产品的马丁 马丁的面包屑 2023-03-30

前言

2月27日(前天),微软发布KOSMOS-1(MLLM),支持LLM进行图像内容的理解并对话,仅仅三天,目前在GitHub已经9.4K Stars。

如果你不明白9.4K是什么含金量,参照AI绘画的近一轮爆发ControlNet,可应用可落地的看得见摸得着的杀手级升级,目前累计10K Stars。

但我看到国内的大部分文章似乎都只是对这篇Paper的翻译和摘要,并没有对KOSMOS-1的出现有太炸街的反应。what?(黑人问号.JPG)

难以理解,算了。我自己写自己看,接下来这篇文章,无关技术,延续我的风格,先做简单科普,然后说明应用影响。

接下来的内容包括:

1. KOSMOS-1(MLLM)是什么(简要说明,其他文章有详细描述,你们搜之)
2. 技术上是怎么做到的(科普性讲解,不深入原理,没有公式)
3. 为什么我认为很重要

KOSMOS-1(MLLM)是什么

有英文&技术阅读能力的朋友可以直奔下面这两个链接,其他朋友继续跟着我的科普讲解走
paper:https://arxiv.org/pdf/2302.14045v1.pdf
GitHub:https://github.com/microsoft/unilm

MLLM,即Multimodal Large Language Model (多模态大语言模型)。

说白了,你以前只能和ChatGPT干聊,现在你能给他发美女,问他好看不,可以给他发段“乌梅子酱”,问他这音乐风格如何(paper未实现,只是理论上),你甚至可以给他发表情包斗图。

上面这些例子,说白了就是——LLM能够理解图像+音频两种内容了,所以才叫多模态大语言模型(虽然paper里这个模型不大,就1.6B)。

接下来直接上图(不是全部),大家翻翻图片大概感受下,往下看技术科普篇。

总之他现在在很多图像类任务上的表现都优于/持平/略低于旧方法(不列举,自行加深学习)。


技术科普篇

有一些比较了解的朋友可能会说这有什么了不起的?我搞个多模态通路(指文转图、图转文、音频转文等)的工具,先把图片、音频转成文本,还不是一样的吗?

能不能搞呢?可以搞。事实上早就用人把CLIP和GPT绑到一起,实现了ChatGPT理解图片(输入图片先用CLIP转成文字,然后拿去和ChatGPT聊)。

一不一样?当然不一样。上面这种做法语言模型本质上还是在做一个文本类的任务。他仍然局限在自己的文字世界里。无法将语言模型的强大能力覆盖到多模态领域,他就像一个盲人,大象是摸出来的(CLIP)而非真正看见。

好,下面正式说说他是怎么做的:

1. 预训练数据

不止放文本数据进行,还把交错的文本、数据(例如网页,图文穿插),图像-图像注释数据(是的就是Diffusion用的那个)一起放进去做预训练(预训练是什么以前讲过)。

2. 大概逻辑

其中语言模型的本身能力,还是靠文本数据的学习得来的,包括对话中的上下文理解,各类NLP任务,支持Prompt等。然后交错的文本、图像数据、图像-图像注释数据,用来实现文本-图像这两个模态之间的对齐打通(我的理解是把CLIP这种跨模态通道的事情在大语言模型预训练中完成了,不一定对)。

3. 最后加点常规的小技巧

照旧是这个领域经典的Cot思维链,他们会把问题拆成小问题,再让模型回答,例如下图:先让他描述图片,然后再把图片描述作为Prompt一起加入对图片的问题中。

4. 其实还有个技巧

叫Language-Only Instruction Tuning,只针对语言指令进行微调。看起来似乎是专门强化了Prompt能力,但是我不太确定。

不过无所谓,不管是产品的身份,还是想用来做商业判断的角度,“亮独观其大略”的程度就够了。


为什么我说他非常重要?

第一,获得更丰富的知识

我们的人类的知识全来自文字吗?不见得吧?天是蓝的,猪是这样的^(* ̄(oo) ̄)^,周杰伦的歌是好听的,Lost Rivers是令人震撼的(强烈推荐,值得一听)。

获得多模态的输入能力有助于LLM更好理解这个世界,从而提升能力。

第二,扩大了任务范围

以前说LLM摧毁了NLP的中间任务(例如语法识别、NER等),现在他连图像理解任务也要摧残掉了——例子中有一个就是未经过OCR识别的文本,被KOSMOS-1理解并回答出了问题(下图左边第一个)。

其次机器人领域(图像理解+文字转行动命令),文档智能等领域的研究也拥有了新的可能。

第三,这种感知能力让它在图形界面层次(GUI)的交互成为可能。

大家用过一些集成ChatGPT的翻译、摘要、润色的插件工具时,常规操作是用指标选取一段文字,然后对这段文字进行提取,然后上传ChatGPT。而你可以截图,甚至不需要截图,交互方式大大提效(语言模型自动阅读整个屏幕内容)。



到这里,还没完,因为上面三个点全都来自论文原文。如果仅仅只是这样我也不会在这么忙的时候抽两个小时上来写东西。

首先,ToolFormer(虚拟终端)很重要

2月9日,Meta发布了Toolfomer,展示了LLM使用工具的可能,即理解用户的要求,明确什么时候应该调用外部工具,同时将任务转为API命令

我在《重磅:盘点7大方向,谁将诞生ChatGPT领域的尤里卡时刻》中着重说明了Toolfomer的重要性:

  1. 他意味着LLM不需要进一步去适配更多能力,可以将外面的工具化为自己的能力,整体能力大大提升;
    2. 他的易交互性令他将成为连接所有工具的终端,这个终端就像PC、手机一样,只是这是一个虚拟的终端
    3. 围绕这个终端,所有的工具方(在这个角度来说,抖音也是工具)都需要按照LLM的标准进行接入,就像当初接入IOS一样。





然后,KOSMOS-1(MLLM)也很重要,上面已经说过了

最后,两者是不是可以加在一起?
语言模型的对工具侧的信息获取,可以通过对图像、音频的理解来快速获取,而不一定要靠工具通过API来提供结构化,但有缺失的信息。
语言模型对工具侧的命令输出,也可以不仅限于通过API提供有限,局部的操作,而是可以输出更丰富的信息维度(例如不仅仅是双击放大图片,而是双击放大图片到这个男生脖子吻痕位置)。
而Toolformer的学习,是否也可以不仅仅局限于人类命令-API结果这样的训练数据上,可以更进一步利用人类日常操作工具的录屏数据?
虽然上面的一些思考多少有些狂想吧,但好歹Paper发了,理论方向是成立的的呀,为啥大家反应这么平淡呢?
最后将论文中非常棒的一句话摘抄出来送给大家:
“The limits of my language means the limits of my world. ”
——Ludwig Wittgenstein
然后再送一句话
“短期内LLM不会涉足多模态生成,因为生成是生成,理解是理解,我上篇文章写的没错!”
——准备被打脸的马丁
愿本文对你有价值有启发~
然后你们转、点、看,我respect~
大家双赢,我赢两次(又沉淀了知识又涨粉)~

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存