查看原文
其他

Devin,在AI推理的奇点上,砸掉码农的饭碗,仅仅是开始。它是怎么做到的

未尽研究 未尽研究
2024-08-23


不久前Sora推出时,它自称是物理世界的一个通用模拟器;现在又出现了一个Devin,它自称正在解决AI像人一样推理的问题。

而且它说:

“通过解决推理问题,我们可以在广泛的领域内解锁新的可能性——代码仅仅是开始。我们希望帮助全世界的人们将想法变为现实。”

Devin,世界上第一个AI程序员,已经被放到Cognition AI的网站上,等待被人雇佣了:

让我们来细说下这件事有多大。

1 它是什么?开发它的初创公司Cognition AI 称,它是首个AI软件工程师 (First Al Software Engineer)。

请看Cognition AI创始人CEO Scott 吴(Wu)的介绍:

它不是一个编程的copilot 和助理,它就是一个码农呵,一个端到端完成开发任务的软件工程师。

2 这家公司真的很牛吗,也有人说它只是制作了Demo视频,或者说用测试数据自已训练了一遍。

其投资人是Peter Thiel,投资过DeepMind,OpenAI,Scale等,他认为Cognition AI具有成长为AI巨头(superpower) 的潜力。

“我们是一个专注于推理的应用人工智能实验室。”

Devin不受其最初编程的限制。它能学习并适应新技术。

Devin能无缝集成到现有项目中,其熟练程度相当于人类工程师。

Devin可以培训和微调其AI模型,确保持续的进化和适应新挑战。(它演示了如何调教Llama2-7B )

Devin的能力已在自由职业市场得到测试,它成功完成了Upwork上的实际工作。

Devin还在领先的AI公司的工程面试中表现出色。

软件工程的未来是AI代理

Devin只是个开始!

3 看下硅谷AI编程大神卡帕西的评论:

这是一个AI做得越来越多,人类做得越来越少但仍提供监督的过程。在软件工程中,进展也是类似的:

首先,人类手动编写代码。

然后,GitHub Copilot自动补全几行代码。

接着,ChatGPT编写代码块。

然后,你转向越来越大的代码差异(例如,Cursor copilot++风格 )

.... 

Devin的演示令人印象深刻,或许展示了接下来的内容:协调多个工具,供开发者串联以编写代码:终端、浏览器、代码编辑器等,以及人类监督逐渐向更高层次的抽象转移。

无论如何,软件工程即将发生重大变化。它将更像是监督自动化过程,同时提供高层次的命令、想法或发展策略。

4 智能体的一次跨跃。

智能体是无数技术模块和工具的打通者、缝合者,规划、执行并且完成任务。它是AI大模型落地的关键。尽管Agent是今年最大的热点几乎成为共识,但Devin这么快就出来了,还是让大家吃了一惊。

Perplexity AI CEO Aravind Srinivas 高度的肯定Devin:这应该是任何Agent的第一个演示,跨越了人类的门槛,工作靠谱。

5 生成式AI的杀手级应用

所谓杀手级应用,就是能超越基础大模型的能力范围。这张图充分展示了这一点:在真实世界的编程中,它的表现远远超过包括GPT-4在内的所有大模型。

6 它怎么搞出来的?是不是已经做到了GPT-4.5或者GPT-5的部分功能

我们看下OpenAI负责研究推理的科学家Noam Brown的赞叹:

2024,真是AI让人兴奋的一年。

而就在几天前,布朗发了一条几乎被人忽略的信息,记念AlphaGo战胜李世石8周年:

“与典型的神经网络不同,AlphaGo在每一步着法上花费约1分钟时间,通过搜索来改进其策略。这使得AlphaGo的实力超过了比它大1000倍的单纯模型。即使在今天,也没有人训练出一个单靠原始神经网络就能在围棋中超越人类的系统。”

显然,这个德扑AI之王,注意到了Cognition AI的使命是研究推理及应用。去年布朗被OpenAI从Meta挖走,就是在苏兹克沃手下负责研究推理。这让人们想起,GPT-5是要建立大模型中的第二系统,即所谓像人一样缜密地“慢推理”的过程。

创始人Scott 吴没有透露Devin的底层原理和技术细节,只是说他的团队找到了将大型语言模型(如OpenAI的GPT-4)与强化学习技术独特结合的方法。他说:“显然,这是该领域的人们长期以来一直在思考的问题。这很大程度上取决于模型、方法以及如何正确地让所有因素协调一致。”

一些第一时间上手测试的专家认为,初步看来,Devin能够在沿着正确的路径处理多个步骤来完成软件工程项目,这是它最大的独特卖点。Cognition透露,这项工作是其“在长期推理和规划方面取得进展”的结果。

Srinivas也认为,这个过程可能是通过结合大型语言模型(LLMs)和树搜索算法, “你需要的系统能够尝试规划,查看结果,重新规划,并迭代直至成功。”

7 对于就业、组织和公司的影响

AI对于人们工作的影响,从个别具体的任务开始替代,直到更多的任务替代,再到岗位,到劳动者本人,这一替代过程,在某些领域可能会加速,直到人类与AI形成新的协作关系,甚至新的组织关系,它将影响未来的公司形态。

一位斯坦福的AI博士试用Devin开发了一个工具:

“我最喜欢Devin的地方是它给人一种非常协作的感觉。几乎像是一个人类同事。

我的预测是,成为一名优秀的工程师将比以往任何时候都更有价值:有时如果Devin遇到困难,我可以给它一些建议——就像我在管理一名初级工程师一样。

我们未来的工作可能是:管理一个Devin团队,并帮助他们解决最复杂的问题。”

优秀的AI创业团队需要顶尖人才扎堆

OpenAI以平均百万美刀年薪从全硅谷和全世界搜刮最顶尖的人才;Pika的4个人中有两位斯坦福博士;Cognition AI的 “10人团队10块奥林匹克金牌”,再次证明了在AI领域取得突破进展,需要一个非常高密度的人才组合——它超出了以往所有行业的人才密度。

主要是因为,这些人才已经很清楚,有许多工作其实已经可以自动化了,或者很快自动化了,开源了,而在技术变化曲线陡峭的时期,只有顶尖人才,才能驾驭技术变化。

哪些是技术已经开源,哪些技术已经有了论文,如何通过开发与工程把它们组合成产品;很快就会再出现一个团队,基于此再构建出更强大的产品…这需要非常强的个人技术背景、团队技术深度以及这些人才迭加之后合成想象力的高度。

9 是的,码农仅仅是开始......

进入2024年,硅谷VC正在投一批初创企业,AI代理取代人工:

软件工程师 (Software Engineer)- Cognition ($21M+)

软件工程师 (Software Engineer)- Magic ($145M+)

产品经理 (Product Manager)- Version Lens ($1.6M)

数据科学家 (Data Scientist)- TextQL ($4.1M)

数据分析师 (Data Analyst )- Fluent ($7.5M)

办公室主任(Chief of Staff)- Mindy ($6M)

通用员工(Universal Employee)- Ema ($25M)

金融分析师(Financial Analyst)- Finpilot ($4.5M)

金融分析师 (Financial Analyst)- Rogo ($7.5M)

合规(Compliance)- Norm Ai ($11.1M)

接待员(Receptionist )- Arini ($0.5M)

信贷员 (Loan Officer)- Casca ($3.9M)

酒店服务员(Hotel Concierge)- Runnr ($1.2M)

设计师(Designer)- SevnAI ($0.5M)

客服(Customer Support) - Sierra ($110M)

客服 (Customer Support )- Rasa ($70M)

10 这个团队基本上由华人组成,华人在什么样的环境最适合发挥他们的创造性?

思考题。





修改于
继续滑动看下一个
未尽研究
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存