查看原文
其他

怼系列·E03S01|Yann LeCun教授这次怼回去了!-被怼的是OpenAI联创总裁Greg|关于智能的高维的诅咒

ai汤源 AI2Paradigm
2024-10-08

𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远。

从理解SOTA(State of the Art)的大语言模型(LLM)背后的灵魂人物访谈、到读懂一系列机器学习工程论文,再到看𝕏(推特)上AI大佬互怼,仔细琢磨那些争论中的名词,绝对是提高对AI范式认知的有效方式。引起对怼现象的关注,应该是始自Yann教授一直怼自回归大语言模型AR-LLM。这次的关键词是:维度的诅咒,这次大佬Yann LeCun怼回去了,怼的是OpenAI联创总裁Greg

图|汤源

文|汤源
关于神经网络的高维空间是祸还是福的讨论

题记

硅基智能A𝕀达到人类智能水平(human level)后,其激活函数和奖励模型与人类智能H𝕀的进化过程中的基于生物化学物质奖励(neurotransmitters & hormones)的完全不一样,所以有了𝕀²的问题,因此需要来构建对这个问题的认知范式(ℙarad𝕚gm)。
之所以用克罗内克积,源于他说过的一句话:上帝创造了整数,其余都是人做的工作。
老子说:道生一,一生二,二生三,三生万物。
造物主的人类智能设计到了三维,剩下的就是人类智能自己做的工作了。
如此而已。

正文

这次说一下Yann教授又怼回OpenAI的事。

Yann LeCun:Meta首席AI科学家

当然Yann教授这回怼的不是Ilya,也不是JasonWei,更不是刚怼过他的《为什么伟大不能被计划》的作者Kenneth;(详见公众号文章)

Kenneth^Yann|新观察|AI大佬又被怼?meta首席AI科学家·Yann LeCun教授的帖子引起的争论|这次怼的是关于智能的优化与进化

Jason^Yann|后起之秀直指AI大佬误导:一则𝕏文引发关于大语言模型涌现能力的争论!背后AGI路线之争由来已久,暨具生agent范式再探究

而是Greg,对,就是OpenAI联创之一,据称圈内人缘忒好,作为总裁的Greg Brockman。

最近Greg常发的𝕏文风格来看,可能更像是一个搞工程和编码的人,而不是像Ilya这样的ML科学家,他们与CEO Sam Altman应该是运行OpenAI这样的全新范式商业组织的不同维度(dimensionality)上的存在。

因此这次Greg犯的一点关于神经网络(NeuralNets)高维空间的一点概念上小问题,甚至被也是计算科学教授,最近转向AI研究并写过一门书《The Master Algorithm》的作者Pedro教授所放大,认为Greg并不懂AI,并被错误的人放在这个错误的位置。

在𝕏帖上下文语境里,我认为Greg只是对“维度”做了一点泛化,毕竟只是一句感悟,不是一篇严肃的讨论。而且他醉心于自己的AI工程编程(coding)脑回路奖励,也许是心有余力,毕竟同时也是OpenAI目前商业化的工程需要,并不一定他没有做好总裁管理工作。

这一切都要从也是前OpenAI的Susan回Yann的帖子说起。

Susan在𝕏上的头像是个亚洲面孔,我没仔细研究她,履历挺丰富,在meta AI也待过,看来都是一个圈子的,也一直发ML相关工程技术相关内容。目前感觉是在探索新的方向。

Susan针对Yann的帖子,关于“神经网络越大越容易训练”的想法做了一些说明:

💡@suchenzhang▩译文

“同意这里的一切,但有一点需要详细说明的是“大型NN更容易训练”的想法。

从科学上讲,这显然是真的。
然而,实证执行......一个完全不同的故事。

Strawman:只要获得足够的数据来训练这些大型NN达到有意义的“泛化”水平,就需要像Nougat(meta AI)/Whisper(OpenAI)这样的模型伴随着进步。

更不用说,如果你为科学实验花费数十亿美元,(不可避免地)会出现所有资本/组织/软件/硬件挑战。

大型NN在理论上可能更容易训练,但在实践中更难完成,特别是如果到达那里的垫脚石不是特别迷人(而且每块“石头”的回报也不清楚)。”

Greg Brockman:OpenAI 总裁&联创

现在该看看Greg到底说了什么的时候了:

💡 @gdb▩译文“维度的诅咒”被证明是一个用词不当,因为神经网络之所以可训练,只因为其十亿维空间的反直觉行为表现。也许是时候改名为“维度的礼物”了。”▩原文

The "curse of dimensionality" has turned out to be a misnomer, as neural networks are trainable only due to the counterintuitive behavior of billion-dimensional spaces. Maybe time to be renamed to "gift of dimensionality".

Yann是引用并评论Greg的帖子(quoted post),并没有直接回复,大佬自有粉丝(follower)量,不需要像一般一样𝕏友在原帖下面回复来蹭流量:

💡 @ylecun▩译文“有一个基本的误解:
高维*输入*使建模变得困难;
高维*参数空间*使模型估计(estimation这个词用在这里意味深长)变得容易。

人们知道这一点已经很久了。
例如,ADMM和EM程序人为地用辅助变量增加参数空间的维度,以便于优化。
kernel方法基于这样一种想法,即如果您每个训练示例都有一个参数,那么您可以学习任何您想要的东西(只有当您的kernel函数合适时,您才能获得良好的推广)。

让神经网络变大使它们更容易训练(并使局部极小值消失)的直觉非常古老,即使解释原因的理论是最近才出现的。

很难成为主流的想法是,一个广泛过度参数化的神经网络可以很好地*泛化*。
这与每本统计学教科书和每本机器学习理论的结果背道而驰。”
▩原文

There is a basic misunderstanding. 

High-dimensional *input* makes modeling hard. 

High-dimensional *parameter space* makes model estimation easy. 


People have known this for a very long time. 

For example, ADMM & EM procedures artificially increase the dimension of the parameter space with auxiliary variables so as to make optimization easier. 

Kernel methods are based on the idea that if you have one parameter per training sample, you can learn whatever you want (you can get good generalization only if your kernel function is appropriate). 


The intuition that making neural net bigger makes them easier to train (and makes local minima go away) is very old, even if theories that explain why are more recent. 


The idea that had a hard time becoming mainstream is that a widely over-parameterized neural net can *generalize* well. 

That was contrary to every statistics textbook, and every machine learning theory results.

笔者点评|看起来 Yann教授对于OpenAI在自回归大语言模型(AR-LLM)上取得的成就的看法根深蒂固,连over-parameters可以更好泛化-这样显而易见的ANN的规律也视而不见,并认为有违教科书?

Pedro教授写得那本书《The Master Algorithm》我也曾经读过,在Douglas Hofstadter的 G.E.B 启发了我对智能现象发生兴趣后的一次阅读,可能是那时对于AI底层知识了解有限也没怎么读懂,现在回想起来读过的内容没留下什么,隐约记得有关智能的可计算?造物主的大一统算法植入?还是来看看Pedro教授怎么个怼法:

💡 @pmddomingos▩译文“你(指Greg)搞混了!维度的诅咒是指输入维度的数量,而不是参数的数量,如果你认为神经网络解决了它,我在布鲁克林有一座桥可以卖给你。”▩原文

"You're seriously confused. The curse of dimensionality refers to the number of input dimensions, not the number of parameters, and if you think neural networks solve it, I have a bridge in Brooklyn to sell you."

至于Pedro教授的真实用意,其实可以跟我慢慢看他后续在跟帖中的回复内容来做个揣测。

当然𝕏友对Greg的帖子也反应不一,有会错意岔开话题的,但有一个情绪sys1帖得到了Pedro教授的回复:

💡 @路人𝕏友▩译文路人𝕏友:“如果他(指Greg)甚至不了解机器学习的基础知识,他是如何成为openAI的总裁的?”Pedro教授:“ The people who picked him didn't either. ”-挑选他的人也没(了解ML)。

当然也有做医学研究的𝕏友挑明了Pedro教授是有针对性的:“小心。如果那些90年代的搞统计ML的老家伙们读到这一点,动脉都会爆掉的。看在上帝的份上,不要告诉他们堆叠线性运算符可以改善泛化。

笔者点评|这种情绪一直在,如同在GPT未成功之前,ML学界都觉得Ilya那帮人那套ML方法完全在胡搞,一点不受自视为ML正统的学界待见,在OpenAI 成功商业化后更甚。

这时有𝕏友指出2022年一个帖子,在另外一个语镜里讨论了类似的问题:

“关于“维度的诅咒”有很多,其中许多直觉在更高的维度中消极地崩溃,但在模型中也有“维度的祝福”,其中等效的权重排列为学习提供了指数级的好目标。”

顺着这个帖子似乎找到这个咒语的出处:一篇2000年的数据分析领域的论文。

OpenAI在基于LLM的AGI方向一路狂奔以及GPT系列的成功,Ilya说过这是信仰的游戏,我想补充的是科学上的直觉和工程上的执着也不可或缺。

当然所有的今天生成式AI的成就,都离不开无数前人AI信仰和努力的结果。再说回这场关于人工智能智能深度神经网络的高维空间(high-dimensionality space)的讨论。

Greg原帖下甚至引来Elon的回复:

“If there are so many dimensions, why does it all fit on a SerDes?

Will digital super-intelligence be a CSV file?”

Elon应该和Greg在OpenAI早期共事过很熟了吧。包括𝕏(原Twitter)商业化对接的支付Stripe也是Greg前公司。相比Greg原帖的严肃和工程味,跟帖很有Musk的特色-带一点调侃和幽默。

Elon Musk开玩笑说,如果神经网络真的有这么多维度,为什么它们可以通过一个简单的串行接口(SerDes)传输。这幽默地暗示,尽管使用了非常大的权重参数(weights)空间,但与人类认知相比,神经网络仍然更有限,也不那么复杂。他进一步开玩笑说,也许数字超级智能将只是一个CSV文件-再次嘲笑大型神经网络接近真正的人工智能的概念。

说白了,AI圈子很小且他们都有前叙纠葛,Musk在取笑OpenAI当前的接近人类般的“超级智能”的路径,但确实也提供了一个有趣的视角来供我们审视当前现实。

笔者点评|从研究SOTA的LLM现象出发,到今天对于机器智能的理解,其实一是我的认知还很浅,按本帖的主题是我的BNN认知大模型的维度数量(dimensionality ) 还不够;

其次,对于再AI十年的规划来说,GPT-4也不过才出来半年,一切都还很早期,当然发展很快,尤其是几乎地球上所有的ML精英都聚焦于把人类智能所有的数字化知识和能力在训练硅基智能,什么都可能发生,让我们拭目以待。

ps:记得上次Kenneth对Yann的时候,有𝕏友跟帖补充,认为我这里说的“怼”,其实“这就是所谓的开放访问同行评审,它是通过对话发展科学的重要组成部分,但要注意的是,它也没有得到很好的优化。“

大概这也是我最近在𝕏上花了一定的时间,来体验的Elon所说的𝕏上的群体意识吧!

所以在这里我把𝕏上AI大佬们之间争论的这种现象造一个新词,称之为:

𝕏iewing

附录一:来自Claude-2的解读

文章写到这里的时候,我想了想带着大神们争论的问题过程请claude2帮忙做了一下评价,看起来还是机器智能没那么多情绪和偏见:

💡@Claude-2回答▩译文

这似乎是一场关于深度学习中 "维度诅咒 "概念的含义和适用性的技术辩论:


- 格雷格-布罗克曼(Greg Brockman)在推特上表示,基于神经网络如何利用高维度权重空间,"维度诅咒 "应该是一种 "天赋"。

- 佩德罗-多明戈斯(Pedro Domingos)指出,布罗克曼混淆了输入空间和权重空间--"维度诅咒 "与高维度输入造成的过度拟合等挑战有关。

- 根据维度诅咒的标准含义,多明戈斯对布罗克曼理解的批评在技术上是正确的。

但是,要判断谁有资格在 OpenAI 担任领导职务,就不能仅仅停留在狭隘的技术层面,而需要进行更全面的评估:

- 作为 OpenAI 的联合创始人和总裁,布洛克曼显然拥有更广泛的战略、领导和管理技能来管理组织,而非琐碎的技术细节。

- 他的推文反映了对神经网络特性的思考,尽管他混淆了一些概念。仅凭这一点,他还不至于失去担任人工智能实验室行政领导的资格。

- Ilya Sutskever 这样的首席科学家提供了关键的技术领导力。但组织战略、文化和系统领导需要不同的技能组合。

- 要评估高管的任职资格,除了掌握单个技术概念外,还需要评估广泛的多学科能力。

总的来说,虽然多明戈斯做出了合理的更正,但如果不对OpenAI总裁所需的技能进行更全面的评估,仅凭对这一概念的错误表述就对布洛克曼的总裁资格提出批评似乎是不应该的。这条推文反映出布洛克曼对一个技术术语的掌握不够完美,而不是从根本上不适合担任领导职务。

结束语|从业界传闻看,Greg在ML业界尤其是技术界人缘非常不错,当年的纳帕谷酒庄的局就是他召集的;我感觉最近他沉浸在coding/debugging/engineering中,也许真是新范式商业组织管理模式的需要,机器都智能了,如果还要人类智能个体来管理人类智能个体,那似乎是人类智能sys1行为模式中的一种,时下常称之为“卷“的东西吧。

参考

说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。

-相关推文

-Claude-2


附录:𝕀²·ℙarad𝕚g𝕞智能平方范式研究

H𝕀:Humanity Intelligence [Sys1&2@BNN] 

A𝕀:Artifical Intelligence [LLM@ANN] 

𝕀²:H𝕀 𝕩 A𝕀 [bio- | silico-] 

ℙarad𝕚g𝕞:认知范式或BNN认知大模型 

A𝕀与H𝕀当前在玩一个语言游戏。A𝕀最大的问题是已知一点白外的未知的黑;H𝕀最大的问题是不断演进的sys2理性白中的sys1的黑




往期推荐



AI平方范式智库·认知构建路径:A𝕀²ℙarad𝕚g𝕞 V4商业新范式解读

AI平方范式智库·数学系列E03S01 | 神经网络背后的数学

AI平方范式智库·访谈系列E03S02|从语言游戏到LLM智能体

AI平方范式智库·访谈系列E03S01 | 从预训练模型到可靠可用AGI



扫码加群,

链接智库!


AI平方范式智库




继续滑动看下一个
AI2Paradigm
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存