OpenAI 首席科学家 Ilya 宣布离职
背景
是是非非,谁又能说清呢?外界只愿相信自己“看到的”,或“听到的”...
没想到 GPT-4o(GPT-4o:OpenAI 发布最强人机交互模型)刚发布,Ilya Sutskever 就宣布离职了,其实他离职也并非毫无预兆。自去年 11 月,Ilya 与其他董事会成员共同推动了首席执行官 Sam Altman 的罢免,虽然最终改变了主意,但这一事件在公司内部引起了不小的震动。自此事件之后就淡出大众和媒体视野了(Elon Musk 也曾在推上多次询问 Ilya 去哪了)...
Jan Leike,曾领导“超级对齐”团队(Superalignment team[1]:目标是解决超级智能 AI 系统的对齐问题,确保这些比人类聪明得多的 AI 系统能够遵循人类的意图并安全运行)的另一位关键人物,也在最近辞职。他的职责将由 OpenAI 联合创始人 John Schulman 接管。Leike 和 Ilya 的相继离职,凸显了公司内部在战略和管理上的某些分歧。
尽管面临这些挑战,OpenAI 仍在不断前行。Sam 表示,OpenAI 将继续致力于其使命,确保 AGI(通用人工智能)的发展造福全人类。在 Jakub Pachocki 的领导下,OpenAI 将迎来新的篇章,继续在深度学习和人工智能的前沿领域开拓创新。
如果还不了解事件的始末,可以看看这几篇文章:
Ilya 宣布离职
2024 年 5 月 15 日,公司联合创始人兼首席科学家 Ilya Sutskever 正式离职(Ilya Sutskever to leave OpenAI, Jakub Pachocki announced as Chief Scientist[2]),并在推上宣布了这一决定。
在近十年后,我决定离开 OpenAI。这家公司的发展轨迹堪称奇迹,在 Sam、Greg、Mira 和 Jakub 出色的领导下,我相信 OpenAI 将构建出既安全又有益的 AGI。能够一起工作是我的荣幸,我会非常想念大家。感谢一切。我对未来充满期待——一个对我个人意义重大的项目,我会在适当的时候分享详细信息。
关于 Ilya 的这两条视频推荐看看
Sam 转帖
Sam 接连发了两条帖子,比较有意思的是 “feeling the AGI today 🩵” 帖子下的评论 “the real AGI was the friends we made along the way”(真正的 AGI 是我们一路上结识的朋友)。生活不正是如此?通过一些人和事,不断地连接起来。我也是通过 ChatGPT 结识到了许多有趣的人和事。
Ilya 和 OpenAI 将分道扬镳。这对我来说非常难过;Ilya 是我们这一代的领军人物,是我们领域的指路明灯,也是亲密的朋友。他的才华和愿景众所周知;他的温暖和同情心虽然不那么为人所知,但同样重要。
没有 Ilya,OpenAI 不会是今天的样子。尽管他有一些个人意义重大的项目要去做,但我永远感激他在这里所做的一切,以及他对我们共同开始的使命的承诺。我很高兴能与这样一位真正非凡的天才亲近,并且他如此专注于为人类争取最佳未来。
Jakub 将成为我们的新首席科学家。他也是我们这一代的领军人物;我很高兴他接过这个接力棒。他主持了许多我们最重要的项目,我非常有信心他将带领我们快速而安全地推进我们确保 AGI 造福所有人的使命。
Greg Brockman 转帖
我对 Ilya 充满感激,他是我的联合创始人、朋友,也是我婚礼的证婚人。
我们共同绘制了 OpenAI 今天的发展路径。当我们在 2015 年底开始时,OpenAI 是一个非营利组织,目标是让 AGI 有益,但没有一个可信的实现计划。最初的日子里,Ilya 和我花了无数时间认真思考文化、技术方向和策略的方方面面。我们意识到,为了建造前所未有规模的超级计算机,我们需要筹集比预期多得多的资金。我们共同为非营利组织筹集资金,虽然筹集到了比其他人认为可能的更多资金,但仍远未达到所需金额。我们提出创建一个为使命服务的营利性结构。一旦这种结构建立起来,我们继续与公司保持一致,保持对 AGI 使命的关注,同时解决每天如何进步的实际问题。
Ilya 是一个艺术家。他的愿景和热情具有感染力,他帮助我理解了这个领域,当时我刚刚起步。他无畏地通过直觉的逻辑结论进行思考。我们受到 1962 年出版的《Profiles of the Future》一书的启发,该书描述了导致科学界认为灯泡、飞行和进入轨道不可能的错误思维模式,而这些成就在不久之后便实现了。所以,尽管有些人怀疑 AGI 在可预见的未来内是否可能实现,我们依然坚持我们的信念,相信深度学习可以带我们走得更远。
使命远未完成,伊利亚在帮助建立 OpenAI 的基础方面发挥了关键作用。感谢你的一切。
📌 Profiles of the Future: An Inquiry into the Limits of the Possible这本书最初发表于 1962 年,是基于 Arthur C. Clarke 在 1959-1961 年间撰写的文章。书中的主题并非着眼于可以预见的近期成就,而是最终的可能性,因此即使是过去十年中发生的显著事件也并未使其内容显得过时。Clarke 在新版中对书中的内容进行了修订和补充,使其更加贴合现代读者的理解。
在这本书中,作者带领读者展开了对未来各种可能性的探索。他探讨了第四维度、重力法则的逐渐消失、太阳系的全面探索以及其中某些星体的殖民化。Clarke 还设想了海洋将被用于开采能源和矿物,小行星将被带到地球上提供必要的材料。他甚至提到,人类可能会被培育得比现在小,以便在更少的食物供应下更加高效地生活。
Jakub Pachocki 转帖
Ilya 向我介绍了深度学习研究的世界,多年来一直是我的导师和伟大的合作伙伴。他对深度学习未来的非凡愿景成为 OpenAI 和 AI 领域的基础。对于我们无数的讨论,从关于 AI 进展的高层次讨论到深入的技术白板会议,我深表感谢。
Ilya ——我会想念与你共事的时光。
Ilya 离职,OpenAI 宣布 Jakub Pachocki 将担任新的首席科学家,继续推动 OpenAI 在人工智能领域的前沿探索。Jakub 拥有卡内基梅隆大学理论计算机科学博士学位,自 2017 年加入 OpenAI 以来,领导了多项变革性的研究项目,包括 GPT-4 和 OpenAI Five 的开发,以及大规模强化学习和深度学习优化的基础研究。他在重新聚焦公司愿景,扩大深度学习系统规模方面发挥了关键作用。
📌 关于Jakub Pachocki 是人工智能领域的重要人物,以其技术领导力和远见卓识而闻名于 OpenAI。自 2017 年加入公司以来,Pachocki 一直是突破性技术开发的关键人物,尤其是 GPT-4 的发展。他的贡献对深度学习系统的进步至关重要,OpenAI 创始人 Sam Altman 对他高度评价,称 Pachocki 的努力对他们的成功是不可或缺的。
Pachocki 将创建像 GPT-4 这样的语言模型的精细过程比作建造宇宙飞船,强调每个组件的精确性和可靠性。他对人工智能的迷恋始于 AlphaGo[3] 的成功,这让他认识到深度学习的巨大潜力。这一认识促使他参与了诸如开发能够掌握 Dota 2[4] 游戏的机器人等重要项目,通过在专业级别的竞争展示了 AI 的能力。
尽管取得了非凡的成就,Pachocki 仍然保持低调,回避媒体关注和社交媒体。他的才能在职业生涯早期就已显现,2012 年通过赢得 Google Code Jam 冠军(获得 1 万美元奖励)、ACM ICPC 世界总决赛(金牌)和 TopCoder Open 等著名编程比赛而脱颖而出。他的成功突显了认知能力在编程中的重要性,将这些比赛比作解决复杂的数学和逻辑难题。
干货推荐
🚀 Ilya 为 John Carmack 准备的终极技术备忘单,并说:“如果你能真正掌握这些内容,你就掌握了当今 90% 的重要技术。”(Ilya Sutskever “If you really learn all of these, you’ll know 90% of what matters today”[5],此资料出自网络,真实性未知,可以作为扩展阅读)
The Annotated Transformer[6]
The First Law of Complexodynamics[7]
The Unreasonable Effectiveness of Recurrent Neural Networks[8]
Understanding LSTM Networks[9]
Recurrent Neural Network Regularization[10]
Keeping Neural Networks Simple by Minimizing the Description Length of the Weights[11]
Pointer Networks[12]
ImageNet Classification with Deep Convolutional Neural Networks[13]
Order Matters: Sequence to sequence for sets[14]
GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism[15]
Deep Residual Learning for Image Recognition[16]
Multi-Scale Context Aggregation by Dilated Convolutions[17]
Neural Message Passing for Quantum Chemistry[18]
Attention Is All You Need[19]
Neural Machine Translation by Jointly Learning to Align and Translate[20]
Identity Mappings in Deep Residual Networks[21]
A simple neural network module for relational reasoning[22]
Variational Lossy Autoencoder[23]
Relational recurrent neural networks[24]
Quantifying the Rise and Fall of Complexity in Closed Systems: The Coffee Automaton[25]
Neural Turing Machines[26]
Deep Speech 2: End-to-End Speech Recognition in English and Mandarin[27]
Scaling Laws for Neural Language Models[28]
A tutorial introduction to the minimum description length principle[29]
Machine Super Intelligence[30]
Kolmogorov Complexity and Algorithmic Randomness[31]
CS231n Convolutional Neural Networks for Visual Recognition[32]
References
Superalignment team: https://openai.com/index/introducing-superalignment
[2]Ilya Sutskever to leave OpenAI, Jakub Pachocki announced as Chief Scientist: https://openai.com/index/jakub-pachocki-announced-as-chief-scientist
[3]AlphaGo: https://deepmind.google/technologies/alphago
[4]Dota 2: https://www.dota2.com
[5]Ilya Sutskever “If you really learn all of these, you’ll know 90% of what matters today”: https://www.reddit.com/r/ArtificialInteligence/comments/1cpbh1s/ilya_sutskever_if_you_really_learn_all_of_these
[6]The Annotated Transformer: https://nlp.seas.harvard.edu/annotated-transformer
[7]The First Law of Complexodynamics: https://scottaaronson.blog/?p=762
[8]The Unreasonable Effectiveness of Recurrent Neural Networks: https://karpathy.github.io/2015/05/21/rnn-effectiveness
[9]Understanding LSTM Networks: https://colah.github.io/posts/2015-08-Understanding-LSTMs
[10]Recurrent Neural Network Regularization: https://arxiv.org/pdf/1409.2329
[11]Keeping Neural Networks Simple by Minimizing the Description Length of the Weights: https://www.cs.toronto.edu/~hinton/absps/colt93.pdf
[12]Pointer Networks: https://arxiv.org/pdf/1506.03134
[13]ImageNet Classification with Deep Convolutional Neural Networks: https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
[14]Order Matters: Sequence to sequence for sets: https://arxiv.org/pdf/1511.06391
[15]GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism: https://arxiv.org/pdf/1811.06965
[16]Deep Residual Learning for Image Recognition: https://arxiv.org/pdf/1512.03385
[17]Multi-Scale Context Aggregation by Dilated Convolutions: https://arxiv.org/pdf/1511.07122
[18]Neural Message Passing for Quantum Chemistry: https://arxiv.org/pdf/1704.01212
[19]Attention Is All You Need: https://arxiv.org/pdf/1706.03762
[20]Neural Machine Translation by Jointly Learning to Align and Translate: https://arxiv.org/pdf/1409.0473
[21]Identity Mappings in Deep Residual Networks: https://arxiv.org/pdf/1603.05027
[22]A simple neural network module for relational reasoning: https://arxiv.org/pdf/1706.01427
[23]Variational Lossy Autoencoder: https://arxiv.org/pdf/1611.02731
[24]Relational recurrent neural networks: https://arxiv.org/pdf/1806.01822
[25]Quantifying the Rise and Fall of Complexity in Closed Systems: The Coffee Automaton: https://arxiv.org/pdf/1405.6903
[26]Neural Turing Machines: https://arxiv.org/pdf/1410.5401
[27]Deep Speech 2: End-to-End Speech Recognition in English and Mandarin: https://arxiv.org/pdf/1512.02595
[28]Scaling Laws for Neural Language Models: https://arxiv.org/pdf/2001.08361
[29]A tutorial introduction to the minimum description length principle: https://arxiv.org/pdf/math/0406077
[30]Machine Super Intelligence: https://www.vetta.org/documents/Machine_Super_Intelligence.pdf
[31]Kolmogorov Complexity and Algorithmic Randomness: https://www.lirmm.fr/~ashen/kolmbook-eng-scan.pdf
[32]CS231n Convolutional Neural Networks for Visual Recognition: https://cs231n.github.io