新Paypal黑手党Transformer Mafia-从Attention到Prompting is All You Need

Original ai汤源 AI范儿 2023-08-21

收录于合集

#论文 12 个

#提示工程 5 个

图｜汤源

文｜汤源

Transformer论文8作者花落何方？

▽

题记

笔者从最初解读GPT灵魂人物Ilya访谈来关注GPT现象，到最近探究Prompting现象本质，多次遭遇奠定大语言模型突飞猛进基础的Transformer架构论文-Attention is all you need [https://arxiv.org/pdf/1706.03762.pdf] ，早就想写些什么，尤其是8位作者在论文发表之后的去向故事，应该可以挖掘不少有启发的信息。

近日又不停被相关的新闻或论文prompt，于是觉得是该动笔输出为他们写一篇的时候了。

▩Prompting其一：来自8君子之一的Noam Shazeer

Character AI
首周下载量碾压ChatGPT，又一款AI应用火了，创始人来自谷歌、员工仅30人；
Character.AI是一款聊天机器人应用，与OpenAI的ChatGPT竞争。该应用的移动端上线不到一周，安装量已超过170万次，远超ChatGPT的50万次；
Character.AI注重人格属性，可以满足用户社交、情感、陪伴和支持的需求。该应用的估值已达到10亿美元，投资者包括知名的风险投资机构A16Z和SVA。创始人曾是谷歌聊天机器人研发骨干，开发过Meena，后来转而成立Character.AI。

可以说8君子中的Noam是最坚持在AGI方向深耕者之一，Character AI的成功可以说明这一点。笔者对于Noam的关注，是来自试图理解GPT-3架构原理的时候，挣扎纠结的神经元突触，让我不禁联想到Noam在GLU的论文 [GLU Variants Improve Transformer-https://arxiv.org/pdf/2002.05202.pdf] 里曾经有过的这么一段话：

至于为啥这些架构看起来起作用了，无可解释。我们把它们的成功，还有其它所有，归于圣意仁心。
"We offer no explanation as to why these architectures seem to work; we attribute their success, as all else, to divine benevolence" - Noam Shazeer (second author of the transformer paper, now CEO of Character AI).

▩Prompting其二：来自Meta的一篇论文

Transformer架构的诞生：从（ANN如何形成）记忆的视角
基于Transformer的大型语言模型取得了巨大的现象级成功。
然而，随着它们的部署越来越广泛，越来越需要更好地了解它们的内部机制，以使它们更可靠。这些模型似乎从其训练数据中存储了大量知识，在其上下文或提示中提供的新信息显示了快速适应性（笔者注：泛化？）。我们研究Transformer如何平衡这两种类型的知识，通过考虑双元（bigrams）分布生成tokens的合成设置：全局或特定于上下文。通过对简化的两层transformer上的训练过程进行仔细的实证分析，我们说明了全局双元词（global bigrams）的快速学习特性和上下文中双元词（in-context bigrams）的“感应头（induction head）”机制的较慢发展特性。我们强调了权重矩阵（weight matrices）作为关联记忆的作用，提供了关于梯度如何在训练期间实现其学习的理论见解，并研究了数据分布属性的作用。

基于ANN的深度学习大语言模型的可解释性（ interpretability）困扰，由来已久。来自Meta AI的这篇论文[https://arxiv.org/pdf/2306.00802.pdf]，和之前OpenAI放出的关于用GPT-4解释GPT-2的神经网络节点工作机制类似，也试图从ANN的神经网络在Transformer架构中如何形成记忆的视角，通过特征明显的双元词bigram分布属性，无论是全局记忆（预训练）和上下文（提示），对于简化的2层transformer网络训练过程分析，一定程度上解读了为什么前者有较快的学习特性，而后者感应头（induction head）较慢发展特性，以及权重矩阵作为关联记忆的作用。

▩Prompting其三、来自ChatGPT发布前夕播客Stratechery的访谈提到的Transformer Mafia

The new PayPal Mafia is the Transformer Mafia
丹尼尔·格罗斯（Daniel Gross）创立了被苹果收购并整合到iOS中的搜索引擎Cue，并于2013年至2017年在苹果领导机器学习工作，然后成为YCombinator的合伙人，然后过渡到天使投资。
...
现在，LSTM 在以前的所有架构中都存在的问题，主要是在Transformer之前，训练时间会随着您将添加到计算窗口的上下文大小而爆炸，并且没有人能真正找到并行化此训练过程的方法。LSTM，至少当我在苹果工作时，我们用它来做你在手机上用的虚拟键盘，在花了很多钱之后，我们可以让他们预测一个句子，但除此之外不会太多。事实证明，无论你拥有什么模型，其生产力在某种程度上都是它能记住多少上下文以及它可以读写多少的副产品。顺便说一下，这对人类来说也是正确的。一个聪明的程序员在写下一页时，可以在脑海中保留两到三页的想法。
时间到了 2017 年，一群人，今天几乎每个人都有了自己的公司，形成了类似新PayPal黑手党，Transformer Mafia，写了这篇论文，叫做《注意力就是你需要的一切》，当时这篇论文几乎被机器学习界其它领域忽视了，他们想出了一个有效并行化这种训练的方法，并使我们能够创建更大的模型，并且作为副产品能够一遍又一遍地存储更多的上下文tokens，但实际上更多的单词，并且有效地能够预测更多的单词。
这篇论文出来时几乎被忽略了——我认为它很整洁，我不知道我弄懂了多少。当时的谷歌已经基于这篇论文开发了这个相当大的模型，由于我们可以想到的各种原因，它没有发布。然后OpenAI真正用GPT-2和3（通用变压器）将那篇论文产品化了，GPT中的decoder-only架构正是来自那篇论文，来自《注意力就是你所需要的一切》。OpenAI因此能够构建这些越来越大的模型，因为他们能够并行训练。GPT系列现在的GPT-3被认为是最先进的，尽管我认为我们的后代可能会像我们今天看待电子管电视一样看待它（GPT-3）。

这篇访谈很长，可能两位受访者都是大厂多年高管经历而且都转为投资人，涉及内容相当多，而且另一位受访者Nat Friedman共同创立了Xamarin，这是一款开源的跨平台SDK，于2016年被微软收购；Nat领导了微软对 2018 年 GitHub 的收购，并在去年之前一直担任这家以开发人员为中心的公司的首席执行官，经历了和OpenAI合作开发Copilot的过程，他现在也专注于天使投资。

Paypal Mafia
Paypal Mafia是一个非正式的称呼，用来指代一群曾经在Paypal工作或创办的人，他们后来又创建或投资了许多其他的科技公司，如Tesla, LinkedIn, Palantir Technologies, SpaceX, YouTube, Yelp等。这些人中大多数曾经在斯坦福大学或伊利诺伊大学厄巴纳-香槟分校学习过。Paypal Mafia的成员包括Peter Thiel, Elon Musk, Max Levchin, Reid Hoffman等。他们以创新思维和反体制态度而闻名，被认为是硅谷的精英分子。

我没有考证Transformer Mafia的说法最初出自哪里，但正如Paypal Mafia一样，Transformer这篇论文的8位作者后来的去向和在AI业界的发展，举足轻重，影响深远，值得探究。

且让我们一一看过来。

Transformer Mafia

2017年，谷歌研究人员推出了论文《注意力就是你所需要的一切》中的Transformer架构，掀起了人工智能的狂潮。

这8位作者的去向各异，分别在区块链、AI生物以及AGI方向，先后诞生了5家初创公司，相信还有更多：

Transformer Mafia创立或所在公司
@AdeptAILabs ( @airstreet )，
Inceptive，
@NEARProtocol，
@CohereAI ,
CharacterAI
@Google AI
@OpenAI

△

“8位作者只有1位留在Google AI ，还有1位目前在OpenAI ”

▩Ashish Vaswani

Ashish Vaswani ( @ashVaswani )在2021年底离开谷歌，创办了@AdeptAILabs，到目前为止已经筹集了4.15亿美元，风险投资公司的估值超过10亿美元......

看起来该公司正在快速增长，刚刚突破了40人。不过Ashish几个月前刚刚离开Adept。

▩Noam Shazeer

在谷歌工作了20年后，Noam Shazeer ( @NoamShazeer ) 于2021年底离开了谷歌，并与他的朋友@dan_defr 创立了@character_ai ......

到目前为止，他们已经筹集了近2亿美元，几乎是一个独角兽......而且只有20~名员工，这资本效率无敌了。

Character AI在题记里已经有提过，最近推出的App非常成功。

▩Niki Parmar

Niki Parmar ( @nikiparmar09 ) 是Transformer论文的唯一女性作者。她在2021年底离开了G公司，并与他人共同创办了@AdeptAILabs 。Niki几个月前也离开了Adept公司。

▩Jakob Uszkoreit

Jakob Uszkoreit（@kyosu）被许多人认为是发现/发明Transformer架构的主要大脑；

在2021年中期离开G公司，共同创立了@Inceptive_labs，用神经网络设计mRNAs。

到目前为止，他们已经筹集了2000万美元，刚刚超过了20人。

▩Llion Jones

Llion Jones ( @YesThisIsLion ) 还在谷歌。

他声称自己对这篇论文做出了最有意义的贡献：Attention is All You Need，这个最不像机器学习论文标题的标题就出自他之手。

▩Aidan Gomez

Aidan Gomez ( @aidangomezzz ) 于2019年9月离开谷歌大脑，创立了@CohereAI ;他们已经筹集了（看起来）近4亿美元。

Cohere最近也突破了180多名员工，并且在3年的强势发展之后，显然正在扩大规模。

▩Lukasz Kaiser

Lukasz Kaiser（@lukaszkaiser）是@TensorFlow的联合创始人之一，在2021年中期离开G公司，加入@OpenAI。

▩Illia Polosukhin

Illia Polosukhin ( @ilblackdragon ) 于2017年2月离开G公司。

他于2017年6月创立了@NEARProtocol（以太坊/Solana的竞争者）。NEAR目前的估值为20亿美元。看起来他们已经筹集了3.75亿美元，并做了很多次轮融资。

后记

《未来简史》作者尤瓦尔·赫拉利，在日前与深度学习三教父之一的Bengio就“人工智能、民主与文明的未来”话题讨论中曾说：

AI是历史上第一种能够自主做出决策和创造思想的技术，与以往的工具完全不同。
AI的进化速度远超人类的生物进化，如果说当前的AI还只是三叶虫，它可能在几年内就会进化成霸王龙，而不是需要数十亿年的时间。

关于智能现象，笔者曾有戏言：

所有的智能现象都有可解释性问题
研究智能现象的好处是，怎么说好像都有道理；坏处是，怎么说又都说不清。
智能服务Intelligence as a Service一个最常见现象是，你一旦用过更聪明的，那其它的你都看不上了。

Transformer Mafia中的Llion Jones，最能引起笔者兴趣，当初是怎样的灵光一现，注意到了Attention机制在Transformer架构中的灵魂地位，不记得在哪里看到过，attention机制引入机器学习，是来自作者之一在中学学习英文时的经验启发。

无论是在LLM的预训练过程中的学习，还是在ChatGPT的服务中交互中的prompting，Attention机制都隐隐不可或缺。

某种意义上来说，与人类学习和做决策需要attention一样，对机器学习来说，没有attention，就没有有效的智能计算。

参考

-JJ ( @JosephJacks_ )
[https://twitter.com/JosephJacks_/status/1647328379266551808]

-Attention is all you need [https://arxiv.org/pdf/1706.03762.pdf]

-GLU Variants Improve Transformer [https://arxiv.org/pdf/2002.05202.pdf]

-Birth of a Transformer: A Memory Viewpoint [https://arxiv.org/pdf/2306.00802.pdf]

-An Interview With Daniel Gross and Nat Friedman about the Democratization of AI

[https://stratechery.com/2022/an-interview-with-daniel-gross-and-nat-friedman-about-the-democratization-of-ai]

END

扫码加群，

立变AI🍚！

AI范儿读者群

👇关注、标星哦～

那些prompt了我的，

是否也prompt了你...

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，掌上藏品，宜藏宜礼！

新Paypal黑手党Transformer Mafia-从Attention到Prompting is All You Need

题记

Transformer Mafia

后记

-JJ ( @JosephJacks_ )
[https://twitter.com/JosephJacks_/status/1647328379266551808]

-Attention is all you need [https://arxiv.org/pdf/1706.03762.pdf]

-GLU Variants Improve Transformer [https://arxiv.org/pdf/2002.05202.pdf]

-An Interview With Daniel Gross and Nat Friedman about the Democratization of AI

您可能也对以下帖子感兴趣

二湘：朱令去世一周年，清华学子控诉清华在朱令案中的冷血和无耻

李宜雪的良知卖了2万元，真正需要声援的是罗灿宏啊

亲密关系中，比“不爱了”更残酷的，是这3种相处模式

三联，刺痛了多少中国人

中国紫砂博物馆出品！2025紫砂五福杯：五福云集，掌上藏品，宜藏宜礼！

生成图片，分享到微信朋友圈

新Paypal黑手党Transformer Mafia-从Attention到Prompting is All You Need

题记

Transformer Mafia

后记

-JJ ( @JosephJacks_ ) [https://twitter.com/JosephJacks_/status/1647328379266551808]

-Attention is all you need [https://arxiv.org/pdf/1706.03762.pdf]

-GLU Variants Improve Transformer [https://arxiv.org/pdf/2002.05202.pdf]

-An Interview With Daniel Gross and Nat Friedman about the Democratization of AI

您可能也对以下帖子感兴趣

-JJ ( @JosephJacks_ )
[https://twitter.com/JosephJacks_/status/1647328379266551808]