怎么风平浪静的?多模态+Toolformer,这波还不原地起飞?
前言
2月27日(前天),微软发布KOSMOS-1(MLLM),支持LLM进行图像内容的理解并对话,仅仅三天,目前在GitHub已经9.4K Stars。
如果你不明白9.4K是什么含金量,参照AI绘画的近一轮爆发ControlNet,可应用可落地的看得见摸得着的杀手级升级,目前累计10K Stars。
但我看到国内的大部分文章似乎都只是对这篇Paper的翻译和摘要,并没有对KOSMOS-1的出现有太炸街的反应。what?(黑人问号.JPG)
难以理解,算了。我自己写自己看,接下来这篇文章,无关技术,延续我的风格,先做简单科普,然后说明应用影响。
接下来的内容包括:
1. KOSMOS-1(MLLM)是什么(简要说明,其他文章有详细描述,你们搜之)
2. 技术上是怎么做到的(科普性讲解,不深入原理,没有公式)
3. 为什么我认为很重要
KOSMOS-1(MLLM)是什么
有英文&技术阅读能力的朋友可以直奔下面这两个链接,其他朋友继续跟着我的科普讲解走
paper:https://arxiv.org/pdf/2302.14045v1.pdf
GitHub:https://github.com/microsoft/unilm
MLLM,即Multimodal Large Language Model (多模态大语言模型)。
说白了,你以前只能和ChatGPT干聊,现在你能给他发美女,问他好看不,可以给他发段“乌梅子酱”,问他这音乐风格如何(paper未实现,只是理论上),你甚至可以给他发表情包斗图。
上面这些例子,说白了就是——LLM能够理解图像+音频两种内容了,所以才叫多模态大语言模型(虽然paper里这个模型不大,就1.6B)。
接下来直接上图(不是全部),大家翻翻图片大概感受下,往下看技术科普篇。
总之他现在在很多图像类任务上的表现都优于/持平/略低于旧方法(不列举,自行加深学习)。
技术科普篇
有一些比较了解的朋友可能会说这有什么了不起的?我搞个多模态通路(指文转图、图转文、音频转文等)的工具,先把图片、音频转成文本,还不是一样的吗?
能不能搞呢?可以搞。事实上早就用人把CLIP和GPT绑到一起,实现了ChatGPT理解图片(输入图片先用CLIP转成文字,然后拿去和ChatGPT聊)。
一不一样?当然不一样。上面这种做法语言模型本质上还是在做一个文本类的任务。他仍然局限在自己的文字世界里。无法将语言模型的强大能力覆盖到多模态领域,他就像一个盲人,大象是摸出来的(CLIP)而非真正看见。
好,下面正式说说他是怎么做的:
1. 预训练数据
不止放文本数据进行,还把交错的文本、数据(例如网页,图文穿插),图像-图像注释数据(是的就是Diffusion用的那个)一起放进去做预训练(预训练是什么以前讲过)。
2. 大概逻辑
其中语言模型的本身能力,还是靠文本数据的学习得来的,包括对话中的上下文理解,各类NLP任务,支持Prompt等。然后交错的文本、图像数据、图像-图像注释数据,用来实现文本-图像这两个模态之间的对齐打通(我的理解是把CLIP这种跨模态通道的事情在大语言模型预训练中完成了,不一定对)。
3. 最后加点常规的小技巧
照旧是这个领域经典的Cot思维链,他们会把问题拆成小问题,再让模型回答,例如下图:先让他描述图片,然后再把图片描述作为Prompt一起加入对图片的问题中。
4. 其实还有个技巧
叫Language-Only Instruction Tuning,只针对语言指令进行微调。看起来似乎是专门强化了Prompt能力,但是我不太确定。
不过无所谓,不管是产品的身份,还是想用来做商业判断的角度,“亮独观其大略”的程度就够了。
为什么我说他非常重要?
第一,获得更丰富的知识
我们的人类的知识全来自文字吗?不见得吧?天是蓝的,猪是这样的^(* ̄(oo) ̄)^,周杰伦的歌是好听的,Lost Rivers是令人震撼的(强烈推荐,值得一听)。
获得多模态的输入能力有助于LLM更好理解这个世界,从而提升能力。
第二,扩大了任务范围
以前说LLM摧毁了NLP的中间任务(例如语法识别、NER等),现在他连图像理解任务也要摧残掉了——例子中有一个就是未经过OCR识别的文本,被KOSMOS-1理解并回答出了问题(下图左边第一个)。
其次机器人领域(图像理解+文字转行动命令),文档智能等领域的研究也拥有了新的可能。
第三,这种感知能力让它在图形界面层次(GUI)的交互成为可能。
大家用过一些集成ChatGPT的翻译、摘要、润色的插件工具时,常规操作是用指标选取一段文字,然后对这段文字进行提取,然后上传ChatGPT。而你可以截图,甚至不需要截图,交互方式大大提效(语言模型自动阅读整个屏幕内容)。
到这里,还没完,因为上面三个点全都来自论文原文。如果仅仅只是这样我也不会在这么忙的时候抽两个小时上来写东西。
首先,ToolFormer(虚拟终端)很重要
2月9日,Meta发布了Toolfomer,展示了LLM使用工具的可能,即理解用户的要求,明确什么时候应该调用外部工具,同时将任务转为API命令
我在《重磅:盘点7大方向,谁将诞生ChatGPT领域的尤里卡时刻》中着重说明了Toolfomer的重要性:
他意味着LLM不需要进一步去适配更多能力,可以将外面的工具化为自己的能力,整体能力大大提升;
2. 他的易交互性令他将成为连接所有工具的终端,这个终端就像PC、手机一样,只是这是一个虚拟的终端;
3. 围绕这个终端,所有的工具方(在这个角度来说,抖音也是工具)都需要按照LLM的标准进行接入,就像当初接入IOS一样。
然后你们转、点、看,我respect~
大家双赢,我赢两次(又沉淀了知识又涨粉)~