OpenAI研究员的一天:向优化之神祈祷、展开头脑风暴后放弃改进模型算法,最后默念压缩一切!
从文本生成模型 GPT-3、GPT-4,到文生图模型 DALL·E、音频转文本模型 Whisper,再到最新发布的文生视频模型 Sora,OpenAI 在大模型这条路上一骑绝尘,引得无数人惊羡不已。
然而,就在今天 OpenAI 研究员 Jason Wei 在 X 平台上最新分享的自己作为 OpenAI 技术人员的普通一天作息时间表时,我们似乎能懂得,当“内卷”演变为一家集聚顶尖 AI 技术人的「内在自我驱动力」,一切都能成为可能。
“作为 OpenAI 技术人员的典型一天”
Jason Wei,是一名住在旧金山的 AI 研究员。此前在 Google Brain 担任资深研究科学家,而后于 2023 年 2 月正式加入 OpenAI。
对于其自身而言,他在入职 OpenAI 时就给自己立了一些规矩,包括其在 X 社交平台置顶的帖子中写道——「我在 OpenAI 开始做的一件事是,我为自己制定了一项政策,凡事都要对我的经理保持 100% 的透明。」
正因为遵循“透明”性原则,他日常工作的一天也引起了不少人的共鸣。
上午:
早上 9:00:起床
上午 9:30:通过 Waymo(自动驾驶汽车)通勤到 Mission SF(加利福尼亚旧金山的街区)。在 Tartine 吃一个牛油果吐司
上午 9:45:背诵 OpenAI 章程。向优化之神祈祷。吸取惨痛教训
上午 10:00:开会(用 Google Meet)。讨论如何在更多数据上训练更大的模型
上午 11:00:和同事 @hwchung27 配对编程,开始写代码,在更多数据上训练更大的模型。
中午 12:00:去食堂吃午饭(素食,无麸质)
稍作休息之后,下午就开始了:
下午 1:00:基于真实的环境中,在更多数据上训练大型模型
下午 2:00:调试基础架构问题(懊恼:我为什么要从 master 直接调用?)
下午 3:00:监控模型训练,和 Sora 一起玩。
下午 4:00:提示工程师使用更多数据训练上述大型模型
下午 4:30:坐在鳄梨椅上短暂休息。想知道 Gemini Ultra 到底有多厉害
OpenAI 把这个椅子造出来了
下午 5:00:头脑风暴,探讨改进模型算法的可能性
下午 5:05:得出结论:改变算法风险太大。扩展计算和数据规模更安全
下午 6:00:晚餐。与 Roon 一起吃蛤蜊汤
在傍晚来临之际,Jason Wei 眼中的「996 工作制」似乎已形同虚设,他开启了第三次工作 Party:
晚上 7:00:通勤回家
晚上 8:00:喝杯小酒,继续编码。迎接「鲍尔默峰值(Ballmer’s peak)」的到来。
注:根据维基百科,Ballmer’s peak,指的是程序员在适当的醉酒状态下可以达到很高的工作效率。这一概念以微软前首席执行官史蒂夫-鲍尔默(Steve Ballmer)的名字命名,很可能是对以科学家约翰-鲍尔默(Johann Balmer)命名的氢谱线鲍尔默系列(Balmer series of hydrogen spectral lines)的戏谑。鲍尔默峰值没有科学依据,尽管研究人员已经研究了相邻的主题,如醉酒对解决问题的影响,但这一概念还是没有科学依据。
晚上 9:00:分析实验运行。 我对 wandb(可以用来追踪,分析深度学习实验)是又爱又恨
晚上 10:00:启动实验,通宵运行,明早前得到结果
凌晨 1:00:实验真正启动
凌晨 1:15:去睡觉。在 Satya (微软 CEO 萨提亚)和 Jensen (英伟达 CEO 黄仁勋)的守护中进入梦乡,心想:压缩就是你所需要的一切(Compression is all you need)。晚安
对此,不少人调侃,万万没想到,没想到这就是 OpenAI 发明 AGI 的方式。甚至就连 Jason Wei 的编程配对搭档 @hwchung27 也转发戏称道:
“[上午 9:45] 背诵 OpenAI 章程。求优化大神。吸取惨痛的教训”
这就是一切。想想 AGI,放下“科学家的自我”,寻求神圣的仁慈。
这是人工智能研究的核心。
还有用户 Alvin-GenAI 表示,“这是 OpenAI 技术人员典型而紧凑的一天的缩影。现在,我强烈地感受到了他们是如何马不停蹄、坚持不懈地践行扩展法则的。更多的计算和数据,持续不断。此外,还有一群超级勤奋的顶尖人才。这就是与众不同之处。顺便说一句,作为工作福利,他还能和 Sora 一起玩耍。”
其实也不难想象,一项先进的技术诞生,背后离不开工程师付出大量的努力。正如几天前,毕业于上海交通大学的天才少年、硕博士均毕业于加州大学圣迭戈分校、现任纽约大学的助理教授的谢赛宁(DiT 作者之一)透露,「对于 Sora 这样复杂的系统,人才第一,数据第二,算力第三,其他都没有什么是不可替代的。」
同时,他还表示,「Sora 背后的主创们他们每天基本不睡觉高强度工作了一年」。
阿里巴巴 Qwen 团队 NLP 研究员的一天
当然不止 OpenAI,过去一年间,在大模型百花齐放百家争鸣的时代,也是各家企业的科技人才在“真刀真枪”地拼技术。
继 Jason Wei 之后,来自阿里的 NLP 研究员 Binyuan Hui 也随即分享了自己作为通义千问团队技术人员的典型一天(仅就自己而言):
早上 9:00:起床,可能会在床上多躺 15 分钟。
上午 9:30:打车上班,浏览 X,了解世界上发生的事情,查看 Jason Wei 的最新帖子。
上午 10:00:开始工作,检查电子邮件,浏览 arxiv,打开 wandb(可以用来追踪,分析深度学习实验)查看昨天的实验结果。大部分时间都在叹气,但有时也会有惊喜。
上午 11:00:开会讨论项目进展。
中午 12:00:在公司吃午饭。
下午 1:00:回到工作岗位,可能是编码,也可能是阅读论文。
下午 2:00:监控模型训练。
下午 3:00:开会讨论项目进度。
下午 4:00:喝咖啡休息。与出色的研究人员讨论他们最近的工作,寻找灵感。
下午 5:00:编码。
下午 6:00:公司聚餐。
晚上 7:00:监控模型训练。
晚上 8:00:编码。
晚上 9:00:阅读论文,与实习生讨论想法。
晚上 10:00:乘坐地铁或出租车回家。
晚上 11:00:准备睡觉,玩手机。
晚上 12:00:最后检查,确保实验按预期进行。很好,晚安。
凌晨 12:30:被一条来自 @JustinLin610(阿里巴巴通义实验室高级算法专家、通义千问开源负责人林俊旸)的消息吵醒,他分享了他刚刚想到的一个好主意。
凌晨 1:00:继续睡觉。
凌晨 1:30:给 @JustinLin610 发消息,与他分享我刚刚想到的一个好主意......
随即作为回应,阿里巴巴通义实验室高级算法专家、通义千问开源负责人林俊旸也分享了自己的一天。
[早上9:00]起床,做好准备,浏览一段时间的 X 消息
[上午 9:30] 乘地铁上班,阅读新闻和 paper
[上午 10:30] 一杯加浓咖啡的拿铁,同时看 X 和 arXiv。
[上午 11:00]开会(训练前、训练后、代码模型、多重性,每天都不一样)
[上午12:30] 午餐。如果不去餐厅的话,通常没什么好吃的。
[下午 1:15]为自己冲一杯滴滤咖啡,处理大量信息。
[下午 2:30]编写代码或文档
[下午 3:00]开会(产品会议、商务会议、客户会议,还有一些无聊的事情)
[下午 5:00] 有时间写代码、看论文、喝茶。
[下午 6:00] 晚餐
[下午 7:00] 集中精力,通常是写代码、文档、启动实验,还有 X!
[下午 9:00] 回家听音乐
[晚上 10:00] 看电视,通常喝点什么,红酒、威士忌、橘子皮水、花旗参......
[晚上 11:00] 在 Duplingo 上学习韩语和阿拉伯语,各 15 分钟。
[晚上 11:30] 回到工作岗位,经常和这个人聊天 @huybery(Binyuan Hui)
[凌晨 1:00] 淋浴和播客,每周五与 @altryne 一起参加 ThursdAI。
[凌晨 2:00] 看抖音和 X,直到我累了睡着......
写在最后
放眼 AI 领域,对于身处这一浪潮中的技术人而言,他们日常不仅需要深入了解相关领域的研究和技术,包括自然语言处理、机器学习、深度学习等;阅读论文、学习算法和模型架构,以及了解最新的技术趋势;也要投入精力来选择和配置适当的硬件、网络和存储设备,以支持模型的训练和部署;参与设计模型架构,并进行参数调优和超参数搜索,以达到最佳的性能和效果;训练模型;编写文档,记录模型的设计和实现细节等等。
与此同时,据 IDC 最新数据显示,2022 年全球人工智能 IT 总投资规模为 1,288 亿美元,2027 年预计增至 4,236 亿美元,五年复合增长率(CAGR)约为 26.9%。
AI 市场将带来巨大的需求,让 AI 技术人才成为各大科技公司争抢的对象。卷是真的卷,但是机遇也随之而至。
最后,作为技术人,你的一天是什么样子的呢?欢迎留言分享。
来源:
https://twitter.com/_jasonwei/status/1760032264120041684
https://twitter.com/huybery/status/1760183652766683449
▶字节跳动辟谣推出中文版 Sora;某厂程序员因 bug 事故被要求返还年终奖;苹果 AirPods 团队大洗牌 | 极客头条
▶挑战在 Vision Pro 里编程,开发者赞许「超沉浸」!网友试过吐槽:看代码太累了
▶股价一路暴跌!被视作 MySQL 开源替代的 MariaDB,或因 3700 万美元被「私有化」?
4 月 25 - 26 日,由 CSDN 和高端 IT 咨询和教育平台 Boolan 联合主办的「全球机器学习技术大会」将在上海环球港凯悦酒店举行,特邀近 50 位技术领袖和行业应用专家,与 1000+ 来自电商、金融、汽车、智能制造、通信、工业互联网、医疗、教育等众多行业的精英参会听众,共同探讨人工智能领域的前沿发展和行业最佳实践。