怼系列·E05S01｜轻怼Yann教授、人工智能幻觉-考古与人工智能安全-印记（第一季终结篇）

ai汤源 AI2Paradigm

2024-10-07

“

𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远。

从理解SOTA(State of the Art)的大语言模型(LLM)背后的灵魂人物访谈、到读懂一系列机器学习工程论文，再到看𝕏（推特）上AI大佬互怼，仔细琢磨那些争论中的名词，绝对是提高对AI范式认知的有效方式。引起对怼现象的关注，应该是始自Yann教授一直怼自回归大语言模型AR-LLM。这次的关键词是：人工智能幻觉、安全印记，笔者顺便催了催Yann教授的world model。

图｜汤源/JAMES YANG/DALL·E-3

文｜汤源

幻觉：当聊天机器人（和人）看到不存在的东西时

文章-@bgzimmer(WSJ)；插图-来自JAMES YANG

▽

题记

𝕏，也就是原来的推特（Twitter，有时简称推），被Elon Musk收购后的一系列操作，似乎都奔着所谓人性群体（humanity）意识平台而去；键政、键黄、养生营销、口水生活、技术产品极客、Web3币圈、LGBQTIAPKDX、黄推诈骗流量号这些还在；

△

“@xDaily近日公布的𝕏的月活MAU超过500M，日贴量超500M”

正如Elon所说，最近用户数创新高达到月活550M，用户每天产生帖文数量也超过500M，但其中有相当一大部分比例用户是只看不参与，当前通过not interested/ mute/block配合𝕏的推荐算法，确实也能在一定程度上形成每个人的时间线（timeline）-信息茧房，但同时不可否认的一个现象是，𝕏平台越来越成为AI界大佬的舆论场；

我（有时自称CPO-Chief Prompt Officer），最近在𝕏上花了一定的时间，来体验Elon所说的𝕏上的群体意识，近距离观察𝕏上的AI生态各类人士的帖文互动，并成文有关AI大佬互怼的一系列公众号文章：

怼系列·E04S01｜大佬们的大模型世界观分组画像以及GPT-4V的内部表征世界探究

怼系列·E03S01|新观察｜Yann LeCun教授这次怼回去了！-被怼的是OpenAI联创总裁Greg｜关于智能的高维空间-是祸还是福？

怼系列·E02S01｜新观察｜AI大佬又被怼？meta首席AI科学家·Yann LeCun教授的帖子引起的争论｜这次怼的是关于智能的优化与进化

怼系列·E01S01｜后起之秀直指AI大佬误导：一则𝕏文引发关于大语言模型涌现能力的争论！背后AGI路线之争由来已久，暨具生agent范式再探究

和我观察身边的人们一样，𝕏上的AI大佬其实并没有对AI的未来形成共识，所谓互怼或者𝕏iewing（见本节ps注释），都是针对AI两条路径（AR-LLM&World Model）以及安全的不同观点的回环（We‘re so back & It‘s so over）。

从研究SOTA的LLM现象出发，到今天对于机器智能的理解，其实一方面是我的认知还很浅，按上次Yann教授怼Greg的帖子里说的High- Dimensionality主题来理解，是我的BNN认知大模型的维度数量（dimensionality ）还不够；

其次是AI大佬们的认知高维空间对机器智能的理解与表达高度压缩，需要通过大佬互怼的关键词的解读，逐层解压，往往能获得对这波AI现象背后本质认知的长足进步。这也是我最近一段时间继续提升个人的BNN认知大模型的主要方法。

上篇文章中还在感叹，一切都还在很早期，什么都可能发生，让我们拭目以待；尤其对于我个人再AI十年的规划来说，GPT-4也不过才出来半年；当然一切又发展很快，尤其是几乎地球上所有的机器学习ML精英都聚焦于把人类智能所有的数字化知识和能力用来训练硅基智能。

ps：记得上次Kenneth对Yann的时候，有𝕏友跟帖补充，认为我这里说的“怼”，其实“这就是所谓的开放访问同行评审，它是通过对话发展科学的重要组成部分，但要注意的是，它也没有得到很好的优化。“

所以在这里我把𝕏上AI大佬们之间争论的这种现象造一个新词，称之为：

𝕏iewing

正文

这篇文章是旧文新发，主要是记录一下最近对于这波AI智能理解的几个关键概念：这一期主要是人工智能幻觉hallucination及其考古、以及人工智能安全印记imprinting。上一篇文章则是解读思考了GPT的内部世界表征。

观察与思考· GPT-4V多模态大语言模型所表征的内部世界探究

月初中秋国庆双节前的这一周，硅谷AI界发生了很多事；这波AI范式领导者OpenAI更是在一周内达成了任何其他人工智能公司可能需要数年时间才能完成的目标：

- DALL·E-3

- 多模态ChatGPT（看、听、说）

- ChatGPT网页浏览与数据更新

- GPT-4 Vision

- 估值即将达到900亿美元

其中最受人瞩目的还是DALL·E-3的推出，并与ChatGPT集成访问，其强大的GPT系列的文本理解能力完美结合了图像生成输出，在图文结合的理解与生成场景完全超越了MidJourney，而且又一次抢了Google多模态大模型Gemini的先机，已经逐步开放给ChatGPT用户。社区一片沸腾，早先拿到灰度测试权限的用户放出的案例确实令人惊艳。

△

来自𝕏友：DALL·E-3 is wild；Prompt如下：

"Archeologists discovering a dragon fossil in rock, detailed, aerial view, zoomed out, full body, 8k"

上图短短一行文本提示词，DALL·E-3就可以生成如此视角真实、细节生动的龙化石考古现场俯视图。

上面这张可能令人类头疼的停车告示牌，GPT-4V则是眨眼间就准确给出有效的停车建议。

甚至还有给出网页界面截图，ChatGPT直接给出前端实现代码；Docker命令行报错截图直接给出报错原因的，等等，凡此种种，不一而足。

▩笔者轻怼Yann LeCun教授-show us your model！

而引起Yann LeCun教授跟帖的，则是Huggingface的llama开源社区方向负责人，拿社区一款Ikea Instructions - LoRA - SDXL（https://huggingface.co/ostris/ikea-instructions-lora-sdxl）来蹭DALL·E-3热度，基于SDXL的LoRA微调优化的宜家组装手册风格生成模型，为Yann LeCun、Geoffrey Hinton和Yoshua Bingio等三位AI界大佬生成的2018图灵奖得主组装图：

看到上图中模型生成的自己的图像，Yann教授吐槽说（见下图）：“我可没那么胖（起码现在不是了）。我不穿开襟衫的。而且我也没搞清楚为啥很多生成模型都把我整得看起来更像Teuvo Kohonen。“

作为CPO，Yann教授这句略显风趣的吐槽，显然prompt到我了，当时就查了一下Teuvo Kohonen是谁以及长啥样（见下图）：

从维基百科上的信息看，你别说，IKEA组装图上的确实更像是这位芬兰计算机科学家。

然后我就跟帖说：“教授，那些 AR-LLM 模型是仇视 LeCun 的。因为你认为它们很烂，这都是训练数据集和印记的结果。”

Yann教授显然注意力还在这个帖子上，不久回复说：“啊哈，但是这些图像都是扩散模型生成的，不是AR-LLM。我并不反对扩散模型。扩散模型有一些我最好的朋友。“

作为CPO怎么会放过这个机会呢，回怼了一个并不期待教授再回复的帖子：“是的，但那些都是伊利亚（Ilya，OpenAI首席科学家，AR-LLM的灵魂人物）的模型，所以他们会互相转告你的谈话。你知道我的意思，这些扩散模型都得有 AR-LLM 大脑，不是吗？所以，现在是你展示自己的时候了......“

▩关于LLM幻觉-Hallucinations

Hallucination，幻觉，这个词可以说一直伴随着这波AR-LLM的GPT现象。

是的，大语言模型内在机制就是下一个词的预测（next token prediction），某种意义上和人类操纵语言一样，是一种语言游戏；人类在用语言的时候时常根据个人的价值判断与诉求动机操纵语义，LLM也一样根据参数分布来理解与生成文本表达，一旦这种表达与预期的或已知事实有出入，我们就说LLM出现幻觉，在胡说，在编造（make up）词序列。

但是Hallucination一词什么时候进入NLP词序列处理，以及在当今的LLM语境中普遍使用，值得深究！

于是有𝕏友问好为人师的@karpathy：“这个，Karpathy老师，你知道是谁提出hallucinations这个词的么？”

目前二进宫回到OpenAI，并负责JARVIS方向的Andrej Karpathy回答说：“我想可能是我吧，在2015年的一篇关于RNN的博客里，这是我能找到的最早提到这个词的。“

紧跟着现在Meta AI的@SussilloDavid指出：

“我的理解是@karpathy是第一个在广义上使用 ‘幻觉‘的人（笔者注：Karpathy说的应该是在NLP领域，RNN对词序列处理的语境中），而我们的2018年论文预印本则是第一个在当今的语境中（笔者注：神经网络机器翻译场景，基于Transformer LLM）使用 ‘幻觉 ‘的人。（论文 PDF：https://openreview.net/pdf?id=SkxJ-309FQ）”

@SussilloD同时也提到WSJ上也有一篇关于这个幻觉主题的专稿：

幻觉，当聊天机器人（和人）看到不存在的东西时（https://on.wsj.com/3H1Kuin）

-在拉丁语中，"精神游荡 "一词被用来形容心理障碍和药物使用所造成的迷失方向的影响，后来又被用来形容人工智能模型中的失误

@karpathy也给出了这篇写于2015年5月份的博客页面网址：https://karpathy.github.io/2015/05/21/rnn-effectiveness/；

当年的RNN语言模型输出，给出了一个像模像样的页面URL，但实际上并不存在，所以karpathy在博客里写到：

💡 Hallucination在RNN LM语境下的出处

原文｜In case you were wondering, the yahoo url above doesn’t actually exist, the model just hallucinated it. 译文｜可能会让你奇怪，上面的雅虎网址实际上并不存在，只是模型的幻觉而已。

△附：https://karpathy.github.io/2015/05/21/rnn-effectiveness/；

接着，有𝕏友进一步指出，Hallucinations一词虽然由Karpathy引入自回归auto-regressive语言模型语境并流行起来，但在CV领域其实已经用了很多年了（见下图）。

关于 "幻觉"，我也比较认同原帖中有些𝕏友的看法：

𝕏友A｜“让我有点抓狂的是，它既可用于 "对新奇事物的采样"（如 "对蛋白质产生幻觉"），也可用于 "生成虚假事物"。另外，后者应该换成 '虚构-confabulate'。”

𝕏友B｜“顺便说一句，我们不应该再称它们为 "幻觉"，而应该称之为 '含糊其辞（paltering）'。LLMs不知道你知道的是什么，却腆着脸想继续说下去，好让你相信他们。“

然而这事到这还没完，擅长总结的@DrJimFan（Nvidia资深AI科学家）新开一帖：

@DrJimFan｜是谁为人工智能创造了 "幻觉 "一词？

现在我知道了。很可能是@karpathy在 2015 年发表的开创性博文《递归神经网络的不合理效率》（The Unreasonable Effectiveness of Recurrent Neural Networks）中提出的，这是在 Transformer 诞生之前的 OG(笔者注：Original Gangster，老枪) 语言模型教程。

RNN 产生幻觉：

- 不存在的雅虎网址

- 完全是胡说八道的代数几何定理和图表。

有趣的是，LM 选择跳过一个证明（"证明省略"，左上角）虽然这是篇旧文章，但下一个标记预测的原理已经存在，至少比 ChatGPT 早了 7 年。Andrej还讨论了推理、记忆和注意力的概念（并配有精彩的可视化演示）。

@DrJimFan的帖下，事后很多𝕏友总结，涉及到语言语义的发展问题：

-“这本是一个很常见的英语短语！”

-“现在，在严肃的人工智能文献中，这是一个专业术语。就像 "注意力"和 "偏见 "一样，这两个词都很常见，但在学术论文中却有特定的含义。“

-“就像医生有自己专门的医学术语一样，人工智能研究人员也有自己的一套 "术语 "来谈论人工智能概念。”

-“这是描述这种行为的一个很好的方法。模型认为它是正确的，因为它在自己的计算中会有很高的确定概率，而实际上它是完全虚构的，就像人类的幻觉一样。”

-“我现在手头没有这篇论文，但 '唤醒睡眠wake sleep'已经存在很久了（例如舵霍兹机和甚至波尔兹曼机训练-helmholtz machine and Even Boltzmann machine training）；我认为其中 >=1 篇论文除了使用hallucination语义中 "睡眠 "的隐喻外，还使用了 "幻想 "的隐喻，如果不是幻觉的话。”

甚至有𝕏友指出他一直认为是Alex Graves在2015年3月的一个演讲题目中用到了hallucination这个词，但在演讲和涉及的2013年的论文中都用dreaming这个词，而不是hallucinating：

-“我一直以为是亚历克斯-格雷夫斯（Alex Graves）创造了这个术语，他在 2015 年 3 月发表了题为 "亚历克斯-格雷夫斯关于 RNN 的幻觉 "的演讲，介绍了他在 2013 年发表的论文 "用递归神经网络生成序列 "。

如果把Hallucination的术语考古背景扩大到AI这一广义范畴，有𝕏友翻出了1999年的一篇CV论文中引用的上世纪60年代的Max Clowes的关于Perception的一句格言：

-“这是第一篇专门论述幻觉的文章，但这一概念在视觉会议上胡乱流传了近三十年。这可能要追溯到 20 世纪 60 年代马克斯-克劳斯（Max Clowes）的一句格言："感知是受控的幻觉"（适用于人类和计算机视觉）”

△

论文截图

https://www.ri.cmu.edu/pub_files/pub2/baker_simon_1999_1/baker_simon_1999_1.pdf

这一段关于Hallucinations术语考古，暂写到这里，并没有完，也有𝕏友说2012年Geoffery Hinton的神经网络课程里就听到过这个词了。更有𝕏友说，如果在更广的有关人类智能的背景中，如认知科学、社会科学和艺术史等多个跨学科来看Hallucination这个现象的话：

-“是的，根据我的理解，人类产生幻觉是常规而非例外。”

这个结论，我也赞同！语言只是人类生物神经网络BNN上运行的实用大模型对这个世界的表征用具，我们所谓的现实世界则是这个大模型对于环境认知的无限近似！而今天的GPT智能，也就是硅基人工神经ANN上运行的LLM掌握了人类语言的秘密，也继承了幻觉这个常规，这不是例外。

▩关于人工智能印记-imprinting

在日前一篇有关Ilya想要什么的公众号文章里，提到了Imprinting这个词。

△

伊利亚·苏茨克沃尔（Ilya Sutskever）真正想要什么？

当时并没有深究Imprinting这个词的来由，简单的将DeepL机翻的“印记”改成了“封印”。文章发布后，有AI范儿社区群友指出：

“Imprinting是一种心理学术语，用来描述人类和动物早期生命阶段中对特定对象、人或物的强烈情感连接和认同。这个概念最初由奥地利生物学家康拉德·津贝琴引入，并在他的观察研究与雁崽的亲子关系中发现。”

再回头看Ilya那篇采访的上下文，可以看出Ilya作为AGI的坚定信仰者，始终以基于LLM的GPT智能为捷径夜以继日不懈努力；刚刚推出的DALL·E-3与ChatGPT的AR-LLM大脑结合可以看出，这种人工智能发展方向的巨大潜力，无论Yann LeCun教授如何怼AR-LLM无法通往AGI，或是智能的语言用具与生俱来的幻觉hallucinations问题，都无法阻止这种硅基的不朽的无限智能计算所能达到的水平，正在逼近并快速超越人类智能。

我还不清楚Ilya所说的Imprinting如何达成，但今天基于预训练后的GPT之上，采用RLHF/RL/SFP等微调方法，几乎不可能给人工智能再打上像人类智能中的印记-Imprinting，无法与人类智能个体、甚至群体以及伴随的世界建立强烈的情感连接与认同。

更可怕的是，一旦机器智能有自主意识或感觉，人类目前的这种服从式的对齐手段几乎肯定塑造不出真正深爱人类的硅基智能。而且如果有一天硅基智能比人类更聪明，则更容易利用人类对其日趋倚重而反过来操纵人类。

最后，以笔者最近的一段思考脑图及注释作为本文的结尾：

A𝕀（硅基人工智能）与H𝕀（人类生物智能），

当前在玩一个语言游戏。

A𝕀最大的风险可能是已知一点RLFH对齐白外的一片未知的黑暗；

H𝕀最大的局限是不断演进的sys2理性白中的sys1的黑洞；

参考

说明：本文在公众号里标注为“原创”仅为防止未经许可的转发，本文引用内容的版权属于原作者和原媒体。

-相关𝕏文

继续滑动看下一个

AI2Paradigm

向上滑动看下一个

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

怼系列·E05S01｜轻怼Yann教授、人工智能幻觉-考古与人工智能安全-印记（第一季终结篇）

题记

正文

-相关𝕏文

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突 认定该生系高空坠落死亡

桐城一派｜倒在“跨年夜”的龚书记，13个字换来免职调查冤不冤？

市管干部“龚书记”免职迷局

讣告！又一知名女星在家中去世，终年54岁，曾是无数人白月光…

近视的孩子有救了！国内最新近视防控矫正技术，不手术，扫码进群即可了解！

生成图片，分享到微信朋友圈

怼系列·E05S01｜轻怼Yann教授、人工智能幻觉-考古与人工智能安全-印记（第一季终结篇）

题记

正文

-相关𝕏文

您可能也对以下帖子感兴趣

观察｜官方通报陕西蒲城一职校学生坠亡：事发前与舍友发生口角和肢体冲突认定该生系高空坠落死亡