查看原文
其他

观察与思考· GPT-4V多模态大语言模型所表征的内部世界探究

ai汤源 AI范儿 2023-10-22


图|汤源/DALL·E 3

文|汤源
DALL·E 3的自我证明-来自𝕏友
(GENERATED by ChatGPT-4): "A visualization of DALL-E 3's depth of output, with layers upon layers of images, each zooming into the next, revealing finer details and deeper semantic connections."

题图

上个月,也就是在GPT-4发布后的半年之际,OpenAI先后发布DALL·E 3文生图服务、以及GPT-4Vision的图文输入功能。
随后几周内,随着服务的灰度开放,越来越多的用户体验到在 ChatGPT 中生成图像的非凡新功能-DALL·E 3。更令人兴奋的是,原来只能文本prompt的ChatGPT 能够 "看"了,这意味着 ChatGPT 将接受图像作为输入。这一功能是新版 GPT-4 模型的一部分,被命名为 GPT-4V(ision)。无论是图形、图表,还是冰箱里的物品,ChatGPT 都能进行同样的处理。最后,如果这还不够,你还可以对它说话,让它直接语音回话给你。
OpenAI 作为新AI范式领导者,再次将我们带入未知领域。我们正在进入一个时代,在这个时代里,人类与人工智能的互动将更接近于人类之间的互动。人工智能将拥有能够引发信念和唤起共鸣的声音,它的耳朵对你的话语百听不厌,您可以分享您的视觉体验,并参与相关讨论。
题图正是一位𝕏友利用ChatGPT-4生成的提示词,让DALL·E 3自我可视化其输出深度并显示分形细节与语义联系:
💡 利用DALL·E 3生成其输出深度的可视化▩原文(GENERATED by ChatGPT-4): "A visualization of DALL-E 3's depth of output, with layers upon layers of images, each zooming into the next, revealing finer details and deeper semantic connections."▩译文(由 ChatGPT-4 生成):"达·利 3的输出深度的可视化,层层叠叠的图像,每个图像都放大到下一个图像,显示出更精细的细节和更深层的语义联系"。

DALL·E 3针对其潜在空间的可视化自述,隐约让人觉得这类大模型有了自己的世界观;另一方面,与大模型的这一切交互,无疑又进一步丰富了GPT的人工神经网络(ANN)大模型对于这个世界的表征。

正文

相比扩散模型的分形无限与边界,自回归大语言模型(AR-LLM)的世界观又是怎样的呢?
“A𝕀²·ℙarad𝕚g𝕞对于当前生成模型的分类:语言空间与想象空间”

A𝕀²·ℙarad𝕚g𝕞最初的生成模型分类中,LLM GPT具有某种超模态的地位,相当于人类的基于语言认知思考空间的ANN大模型实现;而类似Stable Diffusion与MidJourney这类则是想象空间的大模型实现。随着GPT-4V与DALL·E 3的无缝集成统一通过ChatGPT的App或API输出,以及叠加语音交互,大模型进入了多模态交互,AI与HI的交互影响也变得越来越具体。

近日有𝕏友(@marktenenholtz)为AI狂潮中的众生相做了个画像:

💡 “LLM争论中的3类人群”▩原文

The core of so many arguments about LLMs: 

Group 1 is builders who have pragmatic expectations of LLMs, and use them accordingly. They're quite happy with them. 

Group 2 is shitfluencers who are jumping on the hype wave and ruining it for everyone. 

Group 3 hates group 2 and loves showing the deficiencies of LLMs to get back at them. Some are realists, others just have very high expectations of AI. 

Group 1 doesn't understand group 3, because they just ignore group 2 and make use of it. They feel like group 3 is being unfair to LLMs and cherry-picking. 

Now, group 3 starts arguing with group 1. "LLMs are not reliable! They can't always perform complex reasoning!" they shout. 

"We agree!" group 1 responds. "But they're still useful!" 

And that argument continues, between two groups that agree more than they realize. 

Meanwhile, group 2 frolics about, ignoring this entire debate, continuing to post "10 ways to make $10k/mo with ChatGPT" 

And the cycle continues.

▩译文

关于LLM的许多争论的核心:

第 1 组是对 LLM 抱有务实期望并据此使用 LLM 的构建者。他们非常满意。

第 2 组则是那些一拥而上、大肆炒作的 "垃圾影响者",他们毁了所有人的生活。

第 3 组憎恨第 2 组,喜欢展示LLM的不足来报复他们。有些人是现实主义者,有些人则对人工智能抱有很高的期望。

第 1 组不理解第 3 组,因为他们只是无视第 2 组并加以利用。他们觉得第 3 组对LLM不公平,是在偷梁换柱。

现在,第 3 组开始与第 1 组争论:"LLM 不可靠!他们喊道:"LLM不可靠!他们不能总是进行复杂的推理!"。

"我们同意!"第 1 组回应道。"但它们仍然有用!"

这样的争论在两组人之间继续着,他们的共识比他们自己意识到的要多得多。

与此同时,第 2 组嬉笑怒骂,无视整个争论,继续发布 "通过 ChatGPT 每月赚取 1 万美元的 10 种方法"。

如此循环往复。

一石激起千层浪,引来众多跟帖,顶级U管大V-Lex Fridman率先点赞👍:Great summary!随后大家纷纷对号入座,包括著名的Yann LeCun教授(meta AI首席科学家,一直怼AR-LLM sucks),则和笔者以前以为肯定是第3组稍微不一样:

Yann教授虽然还是认为AR-LLM很有局限性,但这次也把自己划进第1组,认为当前的AR-LLM还是很有用的,不过同时也不忘自己的world model路径,提出AI研究要逐步消除AR-LLM局限,使得LLM能够理解物理世界,并能记忆、推理、计划同时要可控安全。
在A𝕀²·ℙarad𝕚g𝕞的范式当前研究框架中,则从LLM GPT的本身智能层次分为:增强人类智能的AI工具智能、可替代人类智能的类人智能以及未来可能自主的硅基智能。当前绝大部分人对于AI的认知都在工具智能层次,当然第二组中的有一部分人,则通过类人智能甚至硅基智能炒作吸引流量变现。不过据笔者社区中观察,确实有一部分人可能也不太好直接划到第二组,这部分人对于AI的历史、工程甚至机器学习原理都有着深刻的认识,又可以分为:AI加速派(e/acc‘s)和AI宿命派(doomer’s)。
AI加速派与AI宿命派主要是关注未来,𝕏友原帖中也有提及,这里不再深究。回到Yann教授提到的world model。当前的AR-LLM理解的物理世界是怎样的?甚至说是否表征了一个世界模型呢?
说起GPT的ANN有没有通过大量文本学习到一个世界模型,让我们回到2023/03/14在GPT-4发布前一天英伟达的皮衣老黄对OpenAI首席科学家Ilya的视频访谈:

“2023/03/14的访谈中Ilya向皮衣老黄解释GPT学习到了压缩的世界表征”
笔者在访谈系列中也曾有提及:

访谈系列·E03S01|GPT-4成功背后灵魂人物Ilya访谈解读——从预训练模型到可靠可用AGI

作为AGI的信仰者,Ilya当然认为GPT在预训练过程中确实通过学习文本中的统计相关性,获得了文本所描述的世界的一个映射。当然这种映射的表达或输出,则需要第二阶段的fine-tuning来强化学习训练,这种学习也是一种压缩,对于下一个词的预测越准确,压缩的还原也越精确。
笔者在几个月前解读Ilya的这篇访谈的时候,第一次听到compression这个词,当时对于GPT的预训练过程中的机器学习是一种压缩这个概念还懵懵懂懂,我们通常印象中压缩就是文件的zip啊!
LLM对文本知识的压缩与解压,和我们常用的zip文件的压缩与解压有什么本质上的区别?
以笔者今天的理解程度,首先,zip是无损压缩。zip是把现有数据视为全体,建立一个和全体完全吻合的模型,用解析数学,是计算。
LLM是把现有数据视为样本,建立一个和全体尽量吻合的模型,用计算数学,是统计。

两者最大的区别是zip缺乏压缩与解压缩过程中的高维空间计算,所以zip的能力很单一,但LLM相反因此具备了强大的能力泛化,以及涌现?
重提这个概念,是最近看到了google DeepMind的一篇arXiv论文:

💡 语言建模就是压缩·Language Modeling Is Compression

https://arxiv.org/abs/2309.10668 [Submitted on 19 Sep 2023]▩论文摘要译文

预测模型可以转化为无损压缩器,反之亦然,这一点早已得到证实。

顺便提一下,近年来,机器学习界一直专注于训练越来越大、越来越强大的自监督(语言)模型。由于这些大型语言模型表现出令人印象深刻的预测能力,它们完全有能力成为强大的压缩器。

在这项工作中,我们主张从压缩的角度来看待预测问题,并评估大型(基础)模型的压缩能力。

我们的研究表明,大型语言模型是强大的通用预测器,而且压缩观点为缩放规律、标记化和上下文学习提供了新的见解。例如,主要针对文本进行训练的 Chinchilla 70B 将 ImageNet 片段压缩到原始大小的 43.4%,将 LibriSpeech 样本压缩到原始大小的 16.4%,分别击败了 PNG(58.5%)或 FLAC(30.3%)等特定领域的压缩器。

最后,我们展示了预测与压缩的等效性,这使我们可以使用任何压缩器(如 gzip)来构建条件生成模型。▩论文摘要原文

It has long been established that predictive models can be transformed into lossless compressors and vice versa. 

Incidentally, in recent years, the machine learning community has focused on training increasingly large and powerful self-supervised (language) models. Since these large language models exhibit impressive predictive capabilities, they are well-positioned to be strong compressors. 

In this work, we advocate for viewing the prediction problem through the lens of compression and evaluate the compression capabilities of large (foundation) models. 

We show that large language models are powerful general-purpose predictors and that the compression viewpoint provides novel insights into scaling laws, tokenization, and in-context learning. For example, Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to 43.4% and LibriSpeech samples to 16.4% of their raw size, beating domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively. 

Finally, we show that the prediction-compression equivalence allows us to use any compressor (like gzip) to build a conditional generative model.

进一步探究,当然这不是一个新概念,2006年Hinton等等论文就说了DNN的这种信息处理属性。 以上DeepMind的论文是从更具体的compression视角来看LLM的prediction。

“2006年Hinton发表在Science上的文章提到

NN可以将高维数据转换为低维代码并从代码中还原”
在压缩与解压之间,LLM GPT有着怎样的世界模型表征?
在原始访谈视频中,Ilya认为:
(1)当我们训练一个大型神经网络来准确预测互联网上许多不同文本中的下一个单词时,人工智能正在学习一个世界模型。 
(2)从表面上看,它可能看起来像文本中的学习相关性,但事实证明,为了“只学习”文本中的统计相关性,为了很好地压缩信息,神经网络学到的是产生文本的过程的一些表示。 
(3)文本是世界的投影......神经网络正在学习的世界、人、人类情形、他们的希望、梦想、动机、他们的互动......我们所处的情况。神经网络学习压缩的、抽象的、可用的表示形式。
你认为学习表征=理解吗? 大型语言模型只是随机鹦鹉,还是更多?
与笔者看法类似的有𝕏友发帖从Ilya的访谈中,对于基于AR-LLM的GPT更多涌现特性,如推理,看起来就像是理解;能够压缩信息并将其抽象为函数,并有效地加以利用,在某种程度上就是理解。
对于多模态而言,它不仅仅是推理和理解文字,还包括图像和其他媒介。如果说 GPT-4V 只是随机鹦鹉学舌或预测下一个单词,那就太肤浅了,因为人类也是通过建立作为世界压缩表征的抽象概念来理解世界的。
当然,基于GPT对人类语言的操纵是真正的理解还是鹦鹉学舌?语言的LLM GPT智能是否可行?智能以及智能是否可计算?这类争论由来已久。
有𝕏友指出就是我们将学习与理解混为一谈,并认为我们可以以此构建人工智能的原因。这句话颠倒了因果关系!
人类并不是先通过建立抽象概念来理解世界,而是从已经理解的 ‘某物‘出发,建立多重抽象概念(图像、语言、机器等)......当我们试图理解时,却只能描述它。
当我们学习时,大多数时候我们学习的是如何将其转化为可交流的语言,而不是真正的概念。
当你声称世界的表象是由语言所创建的网络构建的时候,你所做的基本上是创建了 ‘在底层翻译语言思维之上的另一个思维实例‘,而不是创建了创建语言的原始理解。这就丢失了很多信息。
你需要的是,对词语的去参照(dereferenced)理解,而不是对词语的理解。“
也有𝕏友说图像和文字是任意的,它们不是 "世界模型",它们是以自我为中心的形式,是非表征性的。从它们的差异中无法恢复任何表征,它们要么是模仿的,要么是任意的。只有振荡中的空间拓扑变化才是真实的。“
更有𝕏友搬出“AI中文房间争论”|“我同意。如果它能更有效地预测下一个标记,那么 GPT 就很有可能发展出语义这一涌现能力。中文房间的争论是无效的。”
💡 AI中文房间争论·The Chinese Room Argument[摘自维基百科]▩原文中文房间(英语:Chinese room),是由美国哲学教授约翰·瑟尔提出的一个思想实验,借以反驳强人工智能的观点。根据强人工智能的观点,只要计算机拥有适当的程序,理论上就可以说计算机拥有它的认知状态并且可以像人一样进行理解活动。
该实验出自约翰·罗杰斯·瑟尔的论文《心灵、大脑和程序》(Minds, Brains, and Programs)中,发表于1980年的《行为与脑科学》。[1]

实验概要
中文房间的实验过程可表述如下:
一个对中文一窍不通,只说英语的人关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的中文讯息及如何以中文相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明,查找合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。
约翰·瑟尔认为,尽管房里的人可以以假乱真,让房外的人以为他说中文,但事实上他根本不懂中文。在上述过程中,房外人的角色相当于程序员,房中人相当于计算机,而手册则相当于计算机程序:每当房外人给出一个输入,房内的人便依照手册给出一个答复(输出)。而正如房中人不可能透过手册理解中文一样,计算机也不可能透过程序来获得理解力。既然计算机没有理解能力,所谓“计算机于是便有智能”便更无从谈起了。

反面观点
对此,有相反观点被提出[谁?],其内容大致如下:
反面观点的论据
所有人都认为人是拥有智能的,而人的智能决策来自于脑细胞的电信号转换,每一个脑细胞并不理解单词的意义,只是简单的缓冲、传递或抑制一个电信号,脑细胞创造了语法规则,创造了决策策略(相当于规则书与不懂中文的人),但是它们并不懂每个单词的意义。[来源请求]而人类却显示出与人沟通的能力。如果按照瑟尔的观点,那么人类也不存在认知能力,但这与事实是不符的。所以依然可以认为若某段计算机程序,能够完成图灵测试,则说明该段计算机程序具有认知能力。
对反面观点的批评
然而,此一观点也被提出存在两项根源性谬误,以至甚至被认为错误理解“中文房间”概念。其一为此论过于倚赖“智能决策来自于脑细胞的电信号转换”此一前题,并将人类作出智能决策时,涉及脑细胞电信号转换的现象,错误地演绎为“智能决策‘唯独’由脑细胞的电信号转换‘所产生’”。此演绎不但从未被证明过,也无足够证据支持。其次,此说只能推导出“单独一个脑细胞的缓冲、传递或抑制一个电信号,不能使其理解单词的意义”而已,至于脑细胞(集体)如何创造语法规则、决策策略,是否单纯倚靠个别脑细胞的缓冲、传递或抑制电信号等等,并未作出任何合理推论;同时也忽略了“单独一个脑细胞”与一个拥有智能的人类之间,后者包涵前者、前者与众多他者组成后者等复杂关系,便直接将“单独一个脑细胞不理解单词的意义而人类拥有智能”此一现实,用作否定“机器不能透过程序获得理解能力”与及“智能直接关系于理解能力”的根据,其逻辑难以明白,推演也过于草率。

知名𝕏友Elon更是附议"Yes. End-to-end FSD is the same."

就像所有有关智能的争论一样,40多年前的“中文房间”没有最后结论,今天AI的3类人也同存于这个世界,谁也说服不了谁?!尤其是语言本身的符号表征特性,我们无法分辨GPT的NN是真正理解了语言表征的含义,还是人类对于GPT语言操纵游戏的错觉?
最近MIT的AI研究人员发表了一篇论文:语言模型有内部世界模型吗?时间感?在多个时空尺度上?

💡 语言模型表征的空间和时间·Language Models Represent Space and Time

https://arxiv.org/abs/2310.02207 [Submitted on 3 Oct 2023]▩原文

大型语言模型(LLMs)的能力引发了一场争论:这些系统究竟只是学习了大量浅显的统计数据,还是学习了数据生成过程的连贯模型--世界模型。

我们通过分析 Llama-2 模型系列中三个空间数据集(世界、美国、纽约市)和三个时间数据集(历史人物、艺术作品、新闻标题)的学习表征,找到了后者的证据。

我们发现,LLMs 可以学习跨尺度的空间和时间线性表征。这些表征对不同实体类型(如城市和地标)的提示变化和统一具有鲁棒性。此外,我们还识别出能可靠编码空间和时间坐标的单个 "空间神经元 "和 "时间神经元"。

我们的分析表明,现代LLMs获得了关于空间和时间等基本维度的结构化知识,这支持了一种观点,即它们学习的不仅仅是肤浅的统计数据,而是字面意义上的世界模型。

▩译文

The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model.

We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models.

We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual ‘space neurons‘ and ‘time neurons‘ that reliably encode spatial and temporal coordinates. 

Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.

在这篇新论文中,研究者在 "Llama-2 "的神经网络层激活过程中发现了一幅真实的世界地图,从而提供了大模型具有时空感知的可视化证据!
论文的可视化很漂亮,但仍然无法逃脱前文中提到的“中文房间争论”。从笔者的理解,和Ilya说的投射类似,论文是在NN的隐藏层的空间里针对文本的时空属性维度做了可视化展现,无疑在LLM的神经网络高维计算空间里,是可以捕捉语言文本中的时空特征的。
作为本篇长文的结尾,笔者在探究这个命题的时候,发现斯坦福哲学百科全书的一篇文章-中文房间争论:
https://plato.stanford.edu/entries/chinese-room/
“美国哲学家约翰-塞尔(John Searle,1932-)于 1980 年发表的一篇文章中首次提出了现在普遍被称为 "中文房间论证 "的论点和思想实验。它已成为近代哲学中最著名的论证之一。
塞尔想象自己独自一人在一个房间里,门缝里塞进了一个回复汉字的计算机程序。塞尔不懂中文,但他按照程序像电脑一样操作符号和数字,从门缝里送出一串串合适的汉字,这让外面的人误以为房间里有一个会说中文的人。

这一论证的狭义结论是,对数字计算机进行编程可以使其看起来理解语言,但无法产生真正的理解。因此,"图灵测试 "是不充分的。塞尔认为,这个思想实验强调了这样一个事实,即计算机只是使用句法规则来处理符号字符串,但并不理解意义或语义。
该论证的更广泛结论是,人类思维是类似于计算机的计算或信息处理系统的理论遭到了驳斥。相反,思维必须源于生物过程;计算机最多只能模拟这些生物过程。
因此,这个论点对语义学、语言和心智哲学、意识理论、计算机科学和认知科学都有很大的影响。因此,对这一论点有很多批判性的回应。”
最后,我也请BingCreate的DALL·E 3做了一幅其自我证明的图文结束本文的观察与思考:

“A visualization of "DALL·E 3"(an image generative model from OpenAI) , to show its depth of output from its latent space, with layers upon layers of images, each zooming into the next, revealing finer details and deeper semantic connections.”

附录


💡 A𝕀²·ℙarad𝕚gm-Intelligence as a Service v1~v4范式迭代简介

AI范儿A𝕀²·ℙarad𝕚g𝕞从V1到V4的迭代,是一种全新的尝试,基本是沿着:“从GPT现象·看Prompt本质·找创投应用方向“这样的路径,在“AI范儿”社区一众群友prompt下共创并逐步思考迭代的过程。当前v4.0版本涵盖如下内容:1*整体框架与范式路径:(human level)Intelligence as a Service整体框架,与炼丹、挖矿、化身、具生4原生商业范式迭代路径2*服务路径:模型原生(models native)服务路径与卖铲子(shovels selling)服务路径

3*智能发展路径:通用人工智能(AGI)发展路径、面向个人智能伴侣(PIA)发展路径以及硅基原生(Silicon Stack)智能发展路径

范式思维升级:v4版A𝕀²·ℙarad𝕚gm范式框架一个重大升级就是思维范式的变化,研究对象从GPT现象上升到智能现象,同时纳入了和人类及其组织智能对等的硅基原生智能及其生态,甚至在具有某种自主意识的AI智能体“具生”范式里,考虑在world of bits的纯数字世界里,和人类无关的agent形态。对等智能体分别为Human Intelligence Species(含群体组织)与 Silicon Native Entities(含群体生态),区别为human是否in loop。因此对等智能体之间的价值交互可分为:
  • AI对于人类智能的增强
  • AI对于人类智能的替代
  • AI智能本体的自主化

四个GPT原生范式:及其对应的工程范式,版本迭代路径以及商业范式;并对每个原生范式的未来对应发展路径做了一一对应,具生范式是终极商业范式。

▩炼丹(pre-training) (v1. AIGC) - tokens as a service [~AGI/ASI]

▩挖矿(prompting) (v1. AIGC) - prompts as a service [~GPT agents]

▩化身(fine-tuning) (v2&v4. Models Anywhere&Anyone) - models as a service [~in-devices&on-premises agents]

▩具生(agents) (v3&v4. Promptless) - agents as a service [~world of atoms&bits | human in loop & Silicon Native Entities]
△附:A𝕀²·ℙarad𝕚gm-Intelligence as a Service v1-v4范式迭代路径简介版

▩A𝕀²·ℙarad𝕚g𝕞整体框架示意图
说明:转发传播请注明出处,A𝕀²·ℙarad𝕚gm-Intelligence as a Service商业范式研究框架版权归AI范儿CPO所有。

“AI范儿^A𝕀²·ℙarad𝕚gm商业范式v4.0示意图”


访谈系列·E01S01|AI大神Ilya访谈揭秘GPT-4成功背后的关键,20年如一日的AGI坚守终惊艳世界

访谈系列·E02S01|llya的AGI信念:为伊消得人憔悴,十年终迎GPT震撼崛起

访谈系列·E03S01|GPT-4成功背后灵魂人物Ilya访谈解读——从预训练模型到可靠可用AGI


进阶阅读


进阶阅读


卡梅隆博士系列E01S01:提示工程-CoT思维链实现LLM推理


卡梅隆博士系列E02S01:提示工程-实用提示工程建议与技巧


卡梅隆博士系列E03S01:提示工程-高级提示工程超越few-shot


卡梅隆博士系列E04S01:提示工程-提示合奏使LLM更可靠




卡梅隆博士系列E01S02:开源LLM的历史-早期


卡梅隆博士系列E02S02:开源LLM的历史-更好的基础模型


卡梅隆博士系列E03S02:开源LLM的历史-化身与对齐



AGI甚至ASI-人类是在盗火还是玩火?

AI商业新范式“智能即服务”解读-A𝕀²·ℙarad𝕚g𝕞^v4


参考

说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。

-相关𝕏文

-BingCreate



END


扫码加群,

立变AI🍚!


AI范儿读者群


👇关注、标星哦~

那些prompt了我的,

是否也prompt了你...


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存