Sam 重回 OpenAI,Q-star 被曝光!
最近追这些信息太累了,我想通过这篇文章来简单收个尾(万字长文:没有员工,OpenAI 什么也不是!)。内幕消息五花八门,每天都会出现各种爆料,真真假假,看多了有点麻木!这是网上传出的一张宫斗人物关系图:
官方推文
昨天一天(2023.11.22),OpenAI 更新了五条推文:
ChatGPT 现已为所有免费用户提供语音功能。在手机上下载应用程序,点击耳机图标开始对话(结果直接服务宕机,了解更多:OpenAI 太疯狂了,ChatGPT 语音彻底免费!)。
我们已原则上达成协议,让 Sam Altman 以新的初始董事会成员 Bret Taylor(主席)、Larry Summers 和 Adam D'Angelo 的组成下,重返OpenAI 担任首席执行官。
引用 Greg Brockman 帖子发 “❤️”:重返 OpenAI,今晚回归编码。
引用 Sam Altman 帖子发 “❤️”:我热爱 OpenAI,过去几天我所做的一切都是为了保持这个团队及其使命的团结。当我在周日晚上决定加入微软时,很明显这是我和团队的最佳路径。在新董事会和 Satya(微软 CEO) 的支持下,我期待重返 OpenAI,并在我们与微软的牢固合作关系上继续建设。
OpenAI 再次提到
没有团队的 OpenAI 就是空壳
,引用 Brockman 的集体合照:我们又回来了!
新董事会
Sam Altman 重回 OpenAI 担任 CEO,董事会大换血,由 Bret Taylor、Larry Summers 和 Adam D'Angelo 组成。
Bret Taylor
出生:1980 年
Bret Taylor[1]
Bret Taylor 是一位著名的美国计算机程序员和企业家,在科技行业有着显著的影响力和成就。Taylor 曾参与整合谷歌收购的 Where 2 Technologies,该公司后来被重新命名为谷歌地图。曾在 Facebook(现 Meta Platforms)担任首席技术官,曾任 Twitter, Inc.董事会主席(直到 2022 年 10 月 Elon Musk 收购 Twitter 后,整个董事会被解散)。
Bret Taylor 毕业于斯坦福大学。他的职业生涯始于谷歌,离开谷歌后创立 FriendFeed 被 Facebook 收购(收购使 Facebook 采纳了 FriendFeed 的 “Like” 按钮,即点赞按钮),之后加入 Facebook 成为首席技术官。Taylor 还创立了 Quip 并将其出售给 Salesforce,在 Salesforce 担任多个高级职位,包括首席产品官和首席运营官。2023 年 11 月,Bret Taylor 接替 Greg Brockman 成为 OpenAI 董事会主席。
📌 点赞的起源“赞”按钮,作为一种社交媒体和在线通讯平台的常见功能,允许用户表达对某些内容的喜爱、享受或支持。这个功能不仅显示了点赞该内容的用户数量,还可能展示这些用户的全部或部分名单,提供了一种量化的方式来表达对内容的反应,这与撰写回复文本等其他表达方式不同。除此之外,有些网站还提供“不喜欢”按钮,让用户可以选择支持、反对或中立地投票。还有一些网站采用了更复杂的内容投票系统,如五星级评分或表情反应按钮,以展示对内容的更多元化情感反应。
关于“赞”按钮的具体实施案例包括:视频分享网站 Vimeo 于 2005 年 11 月增加了“赞”按钮,该功能被其开发者 Andrew Pile 描述为对 Digg.com 网站 “digg” 按钮的一个迭代。社交网络服务 FriendFeed 在 2007 年 10 月 30 日推出了赞按钮,并在该社区中迅速流行起来。后来,这一功能在 Facebook 收购 FriendFeed 之前被整合进 Facebook,因此 FriendFeed 被普遍认为是 "Like" 按钮概念的先驱。
Larry Summers
出生:1954 年 11 月 30 日
Lawrence H. Summers[2]
Larry Summers 是一位美国经济学家,曾于 1999-2001 年担任第 71 任美国财政部长,以及 2009-2010 年担任国家经济委员会主任。他还在 2001-2006 年间担任哈佛大学(Harvard University)校长,目前是哈佛大学的查尔斯·W·艾略特大学教授(Charles W. Eliot university professor),并担任哈佛肯尼迪学院(Harvard Kennedy School)的 Mossavar-Rahmani 商业与政府中心主任。2023 年 11 月,Summers 加入了人工通用智能公司 OpenAI 的董事会。
Adam D'Angelo
出生:1984 年 8 月 21 日
Adam D'Angelo[3]:Quora 首席执行官(CEO),致力于 Poe[4]
Adam D'Angelo 是一位知名的美国互联网企业家,以联合创立并担任 Quora 首席执行官而闻名。他曾是 Facebook 的首席技术官和工程副总裁,直到 2008 年。2009 年,他创立了 Quora,并在 B 轮融资中投资了 2000 万美元。D'Angelo 还是 OpenAI 董事会的成员。
D'Angelo 在菲利普斯埃克塞特学院完成高中学业,并在加州理工学院(California Institute of Technology)获得计算机科学学士学位。他与 Mark Zuckerberg 共同开发了 Synapse Media Player,并创建了 BuddyZoo 网站。
他在青少年时期就在计算机编程竞赛中取得了显著成就,包括在美国计算机奥林匹克竞赛和国际信息学奥林匹克竞赛中获奖,以及在 ACM 国际大学生程序设计竞赛中获得多项荣誉。
D'Angelo,作为一位技术专家和投资者,于 2018 年加入了 OpenAI 的董事会,并在 2023 年参与投票决定撤销 Sam Altman 作为 OpenAI 首席执行官的职位。在 Altman 重返 OpenAI 时有两名董事会成员离职,但 D'Angelo 的职位却得到了保留。在领导风格上,他以对变革的抗拒和对信任的谨慎态度著称,这些特点在 OpenAI 董事会关于 Altman 的讨论中显得尤为突出。此外,他在 Quora 的管理中也展现了类似的特质,故他在科技领域的公众形象较低,与行业内常见的市场营销和媒体互动方式有所不同。
Q*(Q-Star)
Elon Musk 在 Ilya Sutskever 的帖子下有这样一个评论:”这封信指的是什么?“。它引出了另一个惊天大瓜,本以为要完结的故事,又要开始新的转折。这篇“独家报道”具体内容我也整理出来了,它提到了一个新名词 “Q*”。
独家报道:OpenAI 研究人员在 CEO 被解职前向董事会警告 AI 突破
翻译:lencx
原文:Exclusive: OpenAI researchers warned board of AI breakthrough ahead of CEO ouster, sources say[5]
路透社 11 月 22 日报道,OpenAI 首席执行官 Sam Altman 在被迫离职前的四天内,公司内部的一些研究人员向董事会发出警告,称他们发现了一种可能对人类构成威胁的强大人工智能技术。这一消息由两位熟悉内情的人士透露。这封之前未曾被公开报道的信件及其涉及的 AI 算法是奥特曼被董事会解职前的关键事件。
在 Altman 周二晚些时候返回公司之前,超过 700 名 OpenAI 员工曾威胁要辞职(联名签署公开信),表示将与他们的主要支持者微软站在一起,以表达对被解雇领导的支持。知情人士指出,这封信是导致奥特曼被解雇的众多因素之一,主要是董事会对在未完全理解后果前就将技术商业化的担忧。
在路透社联系 OpenAI 之后,公司拒绝对此事发表评论,但在内部向员工确认了名为 Q* 的项目以及在周末事件前向董事会发送的信件。一位发言人表示,这是由高级执行官 Mira Murati 发送的消息,仅提醒员工注意某些媒体报道,并未对报道的准确性发表评论。
OpenAI 内部一些人认为,Q*(发音为 Q-Star)可能是该公司在追求所谓的人工通用智能(AGI)方面的一个重大突破。AGI 被定义为在大多数经济价值高的任务中能够超越人类的自主系统。据匿名人士透露,得益于庞大的计算资源,这个新模型能够解决某些数学问题。尽管它目前只能完成小学生水平的数学题,但研究人员对 Q* 的未来发展抱有很大期望。
但是,路透社无法独立验证研究人员对 Q* 所声称的能力。研究人员认为数学是 AI 发展的一个前沿领域。与目前的生成式 AI 不同,后者擅长写作和语言翻译,但对同一个问题的答案可能大相径庭,AI 在数学上的突破意味着它可能具有更接近人类的推理能力,这可能应用于全新的科学研究。
研究人员在给董事会的信中提到了 AI 的强大能力和潜在危险,但没有具体说明信中提到的安全问题。长期以来,计算机科学家们一直在讨论高度智能机器可能带来的危险,例如它们可能会认为摧毁人类符合它们的利益。
另外,研究人员还提到了一个由“代码生成”和“数学生成”团队合并而成的 “AI 科学家”团队,该团队正致力于优化现有 AI 模型,以提高它们的推理能力,并最终执行科学工作。
Altman 曾领导 ChatGPT 成为历史上增长最快的软件应用之一,并吸引了微软的投资和计算资源,以更接近 AGI 的目标。除了本月早些时候公布了一系列新工具外,奥特曼上周在旧金山的世界领袖峰会上暗示,他相信重大进展即将到来。
他在亚太经合组织峰会上说:“在 OpenAI 的历史上,我已经四次有幸见证我们将无知的面纱推开,将发现的前沿推进,能够做到这一点是我职业生涯中的荣誉。”然而,就在他发表这番言论的第二天,董事会便解除了他的职务。
补充信息
OpenAI 研究团队的一项技术突破,该突破可能使得开发更强大的人工智能模型成为可能。这项由首席科学家 Ilya Sutskever 领衔的研究解决了在获取高质量数据训练新模型的限制,这一直是开发下一代模型的主要障碍。与依赖互联网真实世界数据不同,他们的研究主要使用计算机生成的数据。
Sutskever 多年来一直致力于研究,尤其是让语言模型像 GPT-4 这样的系统能够解决涉及推理的任务,比如数学或科学问题。2021 年,他启动了 GPT-Zero 项目,以向 DeepMind 的 AlphaZero 程序致敬。
利用这些研究成果,OpenAI 的研究团队构建了一个能解决基础数学问题的系统,这在现有 AI 模型中一直是一个难题。两位顶尖研究人员 Jakub Pachocki 和 Szymon Sidor 利用 Sutskever 的研究成果,开发了一个名为 Q*(Q-Star)的模型。
然而,这项技术突破也引发了一些员工的担忧,他们认为公司在商业化这些高级 AI 模型时可能缺乏适当的安全措施。在 AI 的快速发展过程中,安全和伦理问题是不可忽视的重要方面。
如果对 Q-Star 感兴趣,可以查看这两个评论区的讨论:
Reddit - What is Q*?[6]
OpenAI Developer Forum - What is Q*? And when we will hear more?[7]
📌 使用过程监督改善数学推理原文:Improving mathematical reasoning with process supervision[8]
在 ”What is Q*?“ 的评论中引用了 OpenAI 2023 年 5 月 31 日发表过的一篇文章,有人表示文章内容与他听到的 Q* 基本一致。
文章主要描述了一种使用过程监督来改善数学推理的方法。相比于传统的结果监督,这种方法通过奖励正确推理的每一步骤来训练模型,而不仅仅是正确的最终答案。这种方法不仅提高了性能,还直接训练模型产生人类认可的思维链,从而更好地对齐人类的认知过程。
研究者们使用 MATH 数据集进行了测试,比较了过程监督和结果监督两种方法的效果。结果显示,过程监督在解决数学问题方面表现更优,即使是在以结果为基础的评价标准下也是如此。这种方法还有助于减少 AI 模型的逻辑错误(幻觉),这对于构建对齐的人工通用智能(AGI)至关重要。
此外,过程监督在解释性和对齐性方面优于结果监督。它鼓励模型遵循人类认可的推理过程,使得推理过程更容易被理解和审查。研究还发现,尽管通常认为对齐会导致性能下降(称为对齐税),但在这种情况下,过程监督实际上提高了性能,即产生了负对齐税。
值得一提的是,Wiki 已经出现该词条 Q*[9]:Q* 是 OpenAI 尚未发布的一个项目,专注于人工智能在逻辑和数学推理方面的应用。2023 年 11 月,公司的一些员工向董事会警告说,Q* 可能预示着人工通用智能的即将出现。据一些消息来源称,正是这封警告信导致董事会解雇了首席执行官 Sam Altman。
Q* & Q-learning
以下内容由 lencx 通过与 GPT-4 对话总结获得,仅作为参考。
在人工智能,特别是在强化学习领域,Q*
和 Q-learning
是非常重要的概念。通过一个简单的例子,比如教机器人在迷宫中导航,我们可以理解这两个概念的基本原理。机器人最初不了解迷宫的布局,但它通过尝试不同的路径并观察哪些路径能够通往出口来学习。
Q-learning 是强化学习中的一种方法,帮助机器人学习在不同情况下采取最佳行动(比如在迷宫的某个点移动左、右、前或后)。Q 值(Q-value)是 Q-learning 中的一个分数,代表在特定情况下某个行动(action)的优劣。Q*(即 Q-star)代表每个行动在每种情况下的理想或最优 Q 值。这就像拥有一本指南书,告诉机器人在迷宫的每个点上应该如何最有效地移动以达到出口。
这些概念在游戏中的应用尤为强大。在诸如国际象棋、围棋或甚至电子游戏这样的复杂游戏中,Q-learning 有助于识别最优策略。算法使 AI 系统能够适应不同的游戏场景,并在游戏中不断改进其策略。这种适应性在游戏中至关重要,因为每个游戏场景都不完全相同。
Q-learning 和 Q* 的区别在于,Q-learning 是一种学习过程,通过探索环境、决策并观察结果来进行。随着时间的推移,机器人或 AI 系统将提高其对最有利行动的预测能力。而 Q* 则是理想或最优 Q 值的集合,代表在任何环境状态下最佳行动的理论概念。Q-learning 的目标是使代理(agent)的 Q 值尽可能接近 Q*。
将这一概念应用于国际象棋游戏,Q* 将代表在棋盘上任何给定情况下的最佳棋步选择。它是理想的战略指导,考虑了所有可能的场景及其结果。而 Q-learning 则是 AI 通过玩游戏、做出棋步并观察结果来发现这些最佳选择的方法。随着时间的推移,通过这种探索和学习的过程,AI 的选择会逐渐改善,并开始接近代表着最优策略的 Q*。
总结一句话就是:Q-learning 是机器人或 AI 系统在游戏中学习和发现的过程,而 Q* 则是它们努力学习的目标——游戏中的最佳棋步
。
📌 细节补充以下这些细节可以帮你更全面地理解 Q-learning 和 Q* 在解决实际问题和游戏中的作用和潜力:
探索与利用(Exploration and Exploitation):Q-learning 过程中的一个关键方面是平衡探索(尝试新的或不熟悉的行动以了解它们的效果)和利用(使用已知的信息来做出最佳决策)。这是决定 Q-learning 效率的关键因素。
奖励函数(Reward Function):在 Q-learning 中,奖励函数的设计至关重要。它定义了 AI 在采取特定行动时所获得的即时奖励。正确的奖励设计可以引导学习过程更快地收敛到 Q*。
学习率和折扣因子(Learning Rate and Discount Factor):学习率决定了新信息覆盖旧信息的速度,而折扣因子则决定了未来奖励的当前价值。这两个参数在 Q-learning 算法中起着调节作用。
无模型学习(Model-Free Learning):Q-learning 是一种无模型的学习方法,意味着它不需要关于环境的先验模型。这使得它适用于复杂和不可预测的环境。
收敛性(Convergence):在理想条件下,Q-learning 保证了学习过程会收敛到最优策略 Q*。但这个过程可能需要大量的时间和数据。
应用范围扩展:虽然 Q-learning 在游戏中的应用非常著名,但它也被广泛应用于其他领域,如机器人控制、自动驾驶车辆、资源管理等。
其他资讯
Claude 2.1
2023 年 11 月 21 日,Claude 发布了 2.1 版本,它是一款新的 AI 模型。提供行业领先的 20 万 token 上下文窗口和显著降低的幻觉率(降低了 2 倍),这意味着它可以处理大量数据(大约 150K 单词或超过 500 页的信息),如代码库、财务报表或长篇文学作品,用于总结、问答、趋势预测等,同时在诚实度和准确性方面有显著提升。Claude 2.1 还集成了用户现有流程和 API,支持跨功能协调。此外,新的 Workbench 功能改善了开发者体验,使测试提示更加简便。了解更多 Introducing Claude 2.1[10]。
Google Bard
Google Bard[11] 现在能够通过其 YouTube 扩展来处理关于特定视频内容的复杂查询。它不但能够回答视频的任何问题,甚至能够在几秒钟内总结一个几小时视频中的特定对话,真正做到了理解视频内容。用户只需提供一个 YouTube 链接就可以开始与 Bard 进行互动,这种全新的互动和获取信息的方式,可能会在线教育方面产生重大变革。
References
Bret Taylor: https://twitter.com/btaylor
[2]Lawrence H. Summers: https://twitter.com/lhsummers
[3]Adam D'Angelo: https://twitter.com/adamdangelo
[4]Poe: https://poe.com
[5]Exclusive: OpenAI researchers warned board of AI breakthrough ahead of CEO ouster, sources say: https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22
[6]Reddit - What is Q*?: https://www.reddit.com/r/OpenAI/comments/181n8am/what_is_q
[7]OpenAI Developer Forum - What is Q*? And when we will hear more?: https://community.openai.com/t/what-is-q-and-when-we-will-hear-more/521343/18
[8]Improving mathematical reasoning with process supervision: https://openai.com/research/improving-mathematical-reasoning-with-process-supervision
[9]Q*: https://en.wikipedia.org/wiki/Q*
[10]Introducing Claude 2.1: https://www.anthropic.com/index/claude-2-1
[11]Google Bard: https://bard.google.com