Covariant创始人:特定数据集训练的模型性能会低于更通用的AI平台;机器人的基础模型和人形机器人的限制目前是...
机器人的基础模型是什么样子?
如何构建兼容多场景/实例/物理硬件的 AI?
人形机器人的限制是什么?
什么样的工业环境目前有足够ROI匹配人形机器人?
多少成本是值得的?
人形机器人与传统自动化的机器人有什么本质区别?
构建机器人通用 AI 需要关注什么?Zeroshot 有没有什么条件?
这些问题在今天分享的 Covariant 创始人&CEO Peter Chen 与硅谷知名天使投资人 Jason Calacanis 的对话中找到了答案, Jason 还很幽默的表示很多投资人 5 年来都看不懂 Covariant,随着生成式 AI 热潮,今天又有点着急了...
Covariant 实际上是一家 AI 机器人公司,成立于 2017 年,由知名 AI 科学家 Pieter Abbeel 和他的三位华人博士生 Peter Chen、Rocky Duan 以及 Tianhao Zhang ,前三位都曾在 OpenAI 担任研究科学家;Covariant 核心技术是被称为“Covariant Brain”的机器人大脑,用于研究如何让机器人抓取任何 SKU 或物品。
以下就是本期 Peter 与 Jason 对话的完整内容,enjoy~
Jason Calacanis
你在 OpenAI 工作了一两年。你在伯克利获得了博士学位,在 2017 年创立了 Covariant ,刚刚完成了一轮 7500 万美元的 C 轮融资,由我们在 Index 的朋友主导。让我们稍微谈一下。你听到了我的开场白,机器人在工厂内部工作,机器人没有使用 AI ,非常垂直特定的任务,特斯拉工厂中的一个机器人的工作与下一个机器人的工作完全不同。
确切地说,将 AI 应用于这些领域,很多情况下都行不通,而且可能会造成很大的损害,因为这些机器人又大又强大、动作又快,它们可以摧毁东西,包括人类,这在这些工厂中也是非常可悲的事情。那么你的方法是什么?你在这个领域非常早期就开始了,在将 AI 和机器人结合起来,以实现机器人在真实世界中学习并使用 AI 来完成新任务的未来方向上,你的方法是什么?
Peter Chen
这是一个很好的开场,关于机器人技术的历史,我认为机器人技术并不是一项新技术,也不是一个新领域。世界上有很多机器人,它们存在于汽车制造厂、电子组装线等各种不同的地方,就像你所说的,Jason,那些机器人是经过编程的;通常情况下,它们只是一遍又一遍地执行相同的动作,然后自动化生产线是如此昂贵,所以你需要完美地设计每个步骤的流程,以使一个只能执行可重复动作的机器人可以成功完成任务。
你可以想象世界上有很多事情是不能简化为可重复动作的,而这些事情实际上正是机器人技术过去无法攻克的领域,包括你提到的采摘草莓的例子,包括真正所有的例子,比如需要在仓库和物流中使用手的操作,这正是我们关注的领域。当你考虑到这些设施时,你正在处理成千上万,甚至数百万种不同类型的物品,这些物品存在于电子商务仓库中,你无法将如此多的物品订单处理简化为完全可重复的机械过程,这些都是我们还没有看到机器人发挥重要作用的领域,这就是我如何看待 AI 在机器人技术中的作用。
实际上,并不是使那些一遍又一遍地进行机械运动的机器人变得更好,在这里,你不需要 AI ,你只是不需要编程来做这个,但 AI 真正能做的是将机器人从那些完全结构化的环境中解放出来,那些地方你只是一遍又一遍地做着同样的事情,转向更大的角色,你真正需要处理每秒、每天、每个季节都在变化的动态、多样的情况,这真正打开了更多可能的机器人应用模式。 Covariant 从仓库和物流领域开始,但我们确实看到更广阔的世界也是适用于这种将 AI 应用于机器人技术的领域。我们将继续探索。
Jason Calacanis
确实,所以你之所以两次提到进入工厂,显然是一个很好的去处,因为你有高频率的交易,如你所说;第二,你有很高的变异性,不同的尺寸,我订购了一堆吸管,你订购了一张沙发,这些都是非常不同的尺寸,一包电池和一台电脑,比如一台笔记本电脑;此外,这是一个半受控制的环境,所以虽然存在变异性,但它是受控制的变异性,例如,这是在你面前的一个传送带。
Peter Chen
没错,确切地说,我认为你可以从自动化的演进角度考虑,从完全结构化的环境过渡到半结构化的环境,这正是我们在这类仓库、配送中心、工业环境中所处理的,变异性很大,但仍然是半结构化的,就好像你不会看到人们乱踢乱踹,或者像自动驾驶汽车可能会遇到的,比如在街上乱窜的动物,这些都是超出范围的情况,所以它位于中间某处,还没有完全进入开放世界,但仍然会让你面对真实世界的多样性和复杂性。
Jason Calacanis
想象一下,你有一个科技初创公司的想法。你要改变世界,我知道,但你遇到了一个问题。你没有任何工程师,这很难找到,他们非常忙碌,工作排得满满的。那么你需要找到优秀的工程师。你需要迅速找到他们,同时你还需要减少烧钱速度,对吧?因为你不能像豪饮水手一样花钱,作为初创公司,你的资源有限,有一个合作伙伴正等着帮助你,他们拥有 1000 名随叫随到的开发人员,他们经过验证,经验丰富,结果导向,热衷于帮助你的初创公司成长。而且,他们收费竞争力强,合理的费用,这听起来是不是太美好了?
在这个过程中,以及你在 Covariant 方面的进展如何?如果我要看一下玩游戏,你有一个非常有限的游戏,比如国际象棋,然后你有一个几乎有限的游戏,但可能的结果更多,比如围棋,然后你有一些具有大量人类变异性的游戏,比如扑克,我们已经看到这些事物是如何陷入困境的,甚至 DeepMind 将整个 Atari 2600 游戏目录纳入其中。
我们在这个时间线上处于什么位置?你在 Covariant 方面的进展如何?如果我要以2023年AI在机器人技术中的强化学习为基准,它处于什么位置?
Peter Chen
这是一个非常好的问题,让我回想起我在 OpenAI 和伯克利进行强化学习研究的日子,我当时训练了很多强化学习智能体,也包括 Atari 游戏套件,所以这让我想起了很多回忆,但回到这个问题,这是一个非常有趣的表述方式。我会说在技术、算法、模型和计算能力方面,我们已经达到了 Atari 的时刻,甚至更进一步,我会说我们甚至已经达到了《星际争霸》和《刀塔2》的水平,这是一个很大的飞跃。
Jason Calacanis
跨度也太大了,对吧?我指的是像《星际争霸》这样的游戏和2600游戏《乒乓球》之间的差距,就像跳棋和围棋之间的差距一样,对吧?这是一个飞跃。
Peter Chen
完全正确。从算法和模型的角度来看,我们已经在那个水平上,但缺少的是数据,所以很难获得能够构建这种类型 AI 的多样化机器人数据。让我们以围棋为例,好吗?如果你考虑到 AlphaGo,这是一项难以置信的成就,它能够击败人类冠军李世石,这是深度强化学习在几年前取得的一项令人难以置信的突破。你已经提到了为什么这是难以置信的,因为围棋是一个非常复杂的游戏;如果你考虑所有可能的围棋棋盘组合,大约有 10 的 170 次方种可能的围棋棋局配置。这个数字超过了可观测宇宙中所有粒子的数量。
Jason Calacanis
停顿在这里是很疯狂的。围棋这个游戏,看起来只有两种不同的石子,表面上似乎是一个简单的棋盘游戏。我们只是看围棋,就好像看跳棋一样,这是一个简单的游戏,国际象棋更加复杂;事实并非如此,确切地说,这是由于游戏的棋盘尺寸的大小,以及其中的数量;我认为还有一点,就是当你有多个角度翻转,并且三四个不同的行列同时发生变化时,可能发生的情况太多了。
Peter Chen
但是,如果你仔细研究一下,一个非常关键的因素是数据量。如果你深入研究 AlphaGo 的背后,你会发现 AlphaGo训练的数据远超过 100 年的围棋对局经验,我们可以详细讨论一下从自我对局、专家对局等方面开始的数据,但暂时停下来,思考一下需要多少数据才能进行训练,当你与AlphaGo对弈时,实际上你在与一个已经在她或他的生命中连续 100 年里什么都没做,只是玩围棋的玩家对弈。
Jason Calacanis
没错,对吧?他们的生活就是100年来同时进行100场比赛。谁知道呢?我想这取决于你有多少个 H100 芯片,是吧?
Peter Chen
确切地说是。
Jason Calacanis
太多了。它在玩大量的比赛并且找到了结果。它甚至不需要训练,所以鉴于你的背景,如果你要向从未听说过 AI 的人解释在围棋、星际争霸或玩乒乓球的情况下的强化学习,我只是想了解强化学习在基本层面上是如何工作的。强化学习中的 3 个或 4 个关键概念和术语是什么?
Peter Chen
需要理解的最基本的两个概念是:首先,你通过执行不同的操作来学习。因此,如果你只是一遍又一遍地执行相同的操作,就不会有强化学习,因为你没有对比。然后,你需要理解的第二个概念是,需要有一个奖励函数,当你执行动作 1 时,它会导致结果 1,你执行动作 2 时,它会导致结果 2 ,必须存在一个奖励函数,可以评价哪个结果更好。
一旦你有一个代理程序可以执行不同的操作,这些操作会导致不同的结果,这些结果可以由奖励函数评价,那么你就可以开始进行强化学习;从高层次上看,它非常简单,代理程序通过采取不同的行动来探索世界,这些行动会导致不同的结果。这个结果由奖励函数评价,然后强化学习算法会查看哪些行动倾向于更好,并从中开始学习,在如何使其运行高效、与大型神经网络结合以及如何使其正常运行方面有很多技术细节。例如,如何将 GPT-4 转变为 ChatGPT-4?在使其发生时需要很多技巧和细节。但在高层次上,这是一个简单的步骤,就是采取不同的行动,找出哪个更好,并尝试更频繁地这样做。这实际上是强化学习的核心基础。
Jason Calacanis
好的,强化学习需要反馈到你的行为,必须有 ABC 的选择,对吧?因此,你必须有一种行为选择。在聊天的情况下,它可能是根据规则移动其中一个棋子。在开局移动时,只能移动某些棋子,然后是胜利的方式是什么?你想要加强什么?你想要告诉它什么?在国际象棋中,好的胜利是有没有棋子被吃掉?这两个基本组成部分是否正确?
Peter Chen
是的,这是一个好的递增奖励函数。你的最终奖励是你是否赢得了比赛,对吗?你可以想象,虽然你可能失去了所有的棋子,但如果你赢得了比赛,那仍然是一个好的结果。
Jason Calacanis
这就是一个很好的观点,因为如果你看看像 Magnus 这样的某些顶级国际象棋选手,我看过他们的视频剪辑,不知道你是否也看过,比如在 TikTok 或 YouTube 上,他们现在会制作一些最佳结局的短视频剪辑。Magnus 令人难以置信的天赋之一是他会大量牺牲棋子,他会牺牲一个“兵”,然后他会牺牲一个“车”,你以为他要完蛋了,但这些牺牲换来了空间,一个“将”就赢了,所以获得物质优势可能是错误的训练方法,这是短期内正确的做法,就是拿走“兵”,拿走“车”,所以其他玩家在与 Magnus 对战时认为他们正在做正确的事情,但他们没有像 Magnus 那样深思熟虑, Magnus 现在是“将军”和2,而当你拿走车时就会成为“将军”和1。
Peter Chen
你提到了强化学习中一个技术概念,即如何优化延迟奖励,比如你正在优化一个具有长期依赖性的目标,你现在可能会失去几步,但最终赢得比赛。在强化学习中的一个重要挑战是如何确定延迟结果以及如何解决长期依赖性的问题;我想退一步,回到关于机器人技术中的数据问题,以及你之前提出的 AI 在机器人领域的发展问题。从算法和模型的角度来看,我们拥有现有的东西,但我们缺乏数据,我们没有百年多样化玩耍的等价数据。
Jason Calacanis
ChatGPT 可以摄取 Reddit 和 Twitter 的数据,OpenCrawl 或 Google 索引网络并将其放入 Bard。
Peter Chen
没错,我们没有与之等价的数据,我们没有Github的等价物,我指的是机器人技术,这是一个关键的限制因素,希望能有所改变。
Jason Calacanis
贝索斯是个天才,难道他没有在传送带和工厂里安装摄像头吗?如果你能观察人类打包货物的过程,那么这是否可以作为数据来源?或者说,机器人和 AI 观察人类打包货物,如果你有百万小时的观察数据,是否足够让你派遣机器人去进行这项任务?
Peter Chen
这是一个非常好的问题,这个话题在学术界被称为第三人称视角学习通过从第三人称视角观察别人来学习,你可以从中学到一些东西,但从未像通过自己的行动,通过自己的尝试和学习那样有效。事实上,即使对于亚马逊来说,他们也在他们的仓库中发布了一些数据集,这些数据集比我们在 Covariant 公司从我们各个不同的客户那里收集到的数据要小得多。
很大一部分原因不仅仅是数据本身,还涉及到获取正确的数据格式和正确的类型,如果你考虑到大型语言模型中的现代运动,很多核心技术都在于你如何筛选和整理数据,这不是一件简单的事情,你不能简单地尝试爬取更多的互联网数据,就像尝试在这些仓库中安装更多的摄像头,只关注传送带,但你是否真正捕捉到了有用的瞬间,最有意义的数据?要了解需要捕捉什么样的数据,实际上需要对你需要机器人解决的问题有深刻的理解。
所以,我们能够收集到有用的数据吗?当然可以,我们今天就可以开始收集,但我们发现,要让机器人能够非常自主地执行任务,你需要极高质量的数据。而如果你需要高质量的数据,就需要有目的性地收集。
Jason Calacanis
我认为你使用的硬件与人类手是明显不同的,虽然它们可能是以人类手为模型,但运动方式是不同的,它可以移动得更快,可以以我们会引起腕管综合症的方式运动它可以在任何方向上扭转和转动,所以你收集的数据必须考虑到机器人的灵活性,它可以以任何方式扭转和转动。那么,让我们谈谈机械手和机械臂的应用,因为现在你可以购买一个机械臂,它可以全年无休地进行工作,每天24小时,几乎没有停机时间,可以举起几百磅的货物。那么这样的机械臂的价格是多少?
现在,你可能会在 CafeX 咖啡机中看到的入门级机械臂,或者在一个小仓库中使用来移动10磅的包裹之类的东西,这些机械臂现在的价格是多少?但是这些是工业级的。
Peter Chen
机器人是非常稳健和成熟的技术,它们非常优秀,比如它们可以持续工作 7 x 24 小时,经过适当的维护,这些机器人可以使用 10 年,以实际上是一项非常了不起的技术,是由汽车行业积累和发展起来的,这类机器人的价格取决于尺寸和负载能力,通常价格在 25000~50000 美元之间,如果你真的考虑到机器的使用寿命,这并不是一个非常昂贵的成本。
Jason Calacanis
如果与工厂中的人工手臂进行比较,需要支付 50 美元的总薪酬,如果它每天全天候工作,那就是每天 1200 美元,一年 365 天,我们在谈论每年 50 万美元,持续 10 年就是 500 万美元,而其中一只机械臂只需要 5 万美元就能完成这项任务。
Peter Chen
确切地说机械臂本身是一种非常具有成本效益的技术,我们在这里看到的是一种强大的机械臂,在一堆杂乱的物品中捡起各种不同的物品,所以机器人需要做的不仅是重复相同的动作,而是真正需要理解面前的物体是什么,以三维形式呈现出来,不同的物体有哪些?接近物体的不同方式有哪些?最好的方式是如何捡起并成功地操纵和转移它?对于那些观看视频的人来说,你们可以看到各种不同的物品,从药品到消费品、糖果食品和杂货等等,你可以真正看到这些物品在世界中以不同的方向出现,而且每个物品不仅可能出现在不同的位置,还可能有不同的变形,比如袋子,不是同一种袋子总会出现在相同的位置。
Jason Calacanis
如果是一袋 Doritos(墨西哥玉米片),我想我看到了 Doritos 和软糖的袋子,如果你把 50 袋软糖和 50 袋 Doritos 或软糖放入托盘中,它们会以各种不同的方式落下。
对于机器人来说,看起来会非常不同,但是经过培训,就像你说的,它会知道这是一袋 Doritos ,具有一定的质地,你不想把它压碎,如果你用力过猛,它会破裂一些 Doritos ;对于软糖来说,也许你可以稍微用力一些,那么这种机械臂叫什么?它不是一个手型机械臂,也不是一个夹子。它看起来有两个类似于吸盘的手指,在这方面我们看到的是什么?
Peter Chen
这些是基于真空的机械手,就像你所说的,你可以很好地阐述机械手和我们在这里看到的宽体机械臂之间的区别,这是由 ABB 制造的机械臂,它是世界上最大的机器人制造商之一,然后还有手部,实际上是与物理世界接触的路径;这里的手部实际上是一个非常简单的机械装置,就像你家中的真空吸尘器一样,可以把东西吸进去,然后机器人分别通过两个真空管或两个杯子来控制,所以你可以选择使用一个杯子或两个杯子,这取决于需要捡起的物体。
Jason Calacanis
是的,或者我想每个杯子上的不同百分比。
Peter Chen
我们发现真空吸力实际上是一种相当通用的手部技术,在仓库环境中,你可以广泛地使用它,但它并不能解决所有问题,它并不像人手那样灵巧,但它实际上是相当通用的,然而我们发现非常重要的一点是,不能在每个地方都使用同样的机器人手,如果你要处理更大的物品,你可以想象你需要更大的吸力管来捡起一个响铃球;确切地说,但它可以被夹子之类的器具轻松捡起。
Jason Calacanis
就像基于指的夹持器一样。
Peter Chen
没错,这实际上指出了一个非常有趣的问题,那就是机器人的 AI 需要能够适应不同类型的物理硬件,它实际上需要有能力不仅处理一种物理构造,而且可以适应多种物理构造,因为我们还没有能够构建出像人体那样普适的机械手、机械臂和机器人身体,这意味着对于不同的用例和不同的客户,你需要不同的硬件,现在你的 AI 需要具备适应不同物理构造的能力。
事实上,这是一个非常有趣的想法,对吧?如何构建一个能够在多个不同的实体身上学习的 AI ?你如何构建一个能够跨多种情景和不同类型物品集合进行学习的 AI ?这正是我们正在构建的核心所在,也就是我们所称之为协变大脑,一个为机器人提供基础模型的系统。
我们说它是机器人的基础模型,类似于 ChatGPT,它可以跨越翻译任务、编码任务等所有这些不同的语言任务进行学习,而我们的基础模型也将学习跨越多个不同的机器人任务和不同的机器人硬件它,将在不同的客户场景和不同的行业垂直中取得成功。
我们这样做是因为这对于解决我们之前提到的 AI 机器人的数据问题是必要的,想象一下,如果每次我需要开发一个新的机器人硬件平台,我都需要收集一套特定的数据集来适应该硬件。
如果我需要为一个客户收集一套特定的数据集,就永远不可能达到 AlphaGo 在百余年经验中取得的那种境地,为了启动这个基础模型,唯一的办法就是将它们全部收集在一起,而且你必须构建一个能够跨所有这些不同任务进行学习的 AI 。
Jason Calacanis
这是一个有趣的问题,像亚马逊这样的公司会将这些信息、这些数据、这些学习视为对塔吉特和沃尔玛的专有优势。而 Target、沃尔玛或其他一些落后于它们的供应商,例如假设塔吉特在自动化方面远远落后于沃尔玛和亚马逊。他们可能非常希望贡献自己的数据以获得你们的解决方案。那么,作为创始人,你如何考虑市场推广策略?有些人可能会说,我不想给你那些数据,或者你如何获取那些数据?然后你如何与客户进行谈判?
Peter Chen
我们与那些对创新充满热情、大型电子商务客户合作,他们知道未来的发展方向是通过 AI 和机器人自动化来实现。他们也认识到自己无法在内部建立起与亚马逊竞争、跟上创新步伐所需的能力。他们必须与一家以合作伙伴方式运作、能够真正将这项技术带给他们的初创公司合作。
例如,我们最近在欧洲宣布与奥托集团(Otto Group)合作的案例,他们是欧洲第二大电子商务公司,仅次于亚马逊,实际上是与亚马逊竞争的大型电子商务综合集团。他们还拥有一些在美国更为熟知的品牌,比如Crate and Barrel。他们为什么选择与Covarian合作呢?
确切地说,是因为他们认为 AI 和机器人技术是不可避免的。他们认为利用这项能力作为一个基础模型、一个平台来改变他们供应链网络中的多个环节至关重要。
与此同时,他们自己无法建立这样的能力,对吧?所以,最好的选择就是与Covarian合作,真正将这项技术引入他们的网络中,他们向平台贡献数据,但他们也从中获得了显著的好处;由于我们已经在多个大陆上建立了如此广泛的机器人数据集,他们在自己的场地部署的机器人也能够在还没有贡献任何数据之前实现更好的性能,也就是说,他们已经可以开始从中受益了。
这正是当前状态的 LLM 如此强大的一个重要原因,即使在你对自己的数据集进行微调之前,它已经非常有用了,因为它已经对世界有了如此多的学习,即使对于你自己的业务问题,它还没有见过所有的专有数据,我们已经可以很好地表现,通过与我们合作,他们能够将数据引入这些大型数据集,从而使得 AI 在特定的用例中更加强大。
Jason Calacanis
明白了。当你向 B2B 买家销售产品时,你真的想让你的推销信息出现在决策者面前,那些有权签署合同的人,因为这些高层主管才是做出采购决策的人;团队中的每个人都可能有自己的意见,当然,现在是 2023 年了,但总会有一个人,他们是最终决策的人,而这个决策就停留在他们的桌子上,而不会进入你的银行账户。
当你向他们提供机会时,他们当然会有接受的心态,因为他们不会在度假时发布他们在意大利的食物照片,让 B2B 营销成为你想象中的一切。你们对像特斯拉的项目(我想它叫Optimus)这样的项目有什么看法呢?它构建了一个真正的类人机器人,它看起来像一个人,走起路来也像一个人,显然,这些机器人臂部是垂直一体化的。
现在,这些机械臂已经存在了30、40年,我想它们已经大规模应用,并且每天都在超越人类,起到了巨大的作用,但有些人会采取像 Elon 所做的方式,我想另一个例子是 Figure,这是一个像人一样的机器人,它将通过强化学习在你的工厂里走来走去,或者在你的房子里走来走去,把盘子放在洗碗机里,或者在狗吃得乱七八糟的时候捡起来并清理掉。
Peter Chen
我非常高兴有人在研究这样的人形机器人,这将成为一个非常关键的平台,真正能够开放广泛的机器人使用案例。如果你想想这些工业机器人臂,它们确实很好,但它们的限制是什么呢?
它们的限制在于它们大部分是固定的静止机器人,这意味着你必须把工作带到它们那里,并且你必须不断地为它们提供工作。这些类型的机器人应用只有在你运营两三班制并且机器人不停工作的情况下才有意义,这正是我们为客户解决的使用案例。比如这些不断发生工作的重型工业环境。在这种情况下,你就会得到一个非常积极的商业案例。
这是一个非常大的市场,我们可以轻松地向这种运行两三班制的物流设置销售数十亿美元的机器人,但这并不是全部,在不那么密集的工业环境中,比如你可能每天最多只洗两次碗,那可能是每周两次,谁知道?或者是每周两次对吧?所以在你的洗碗机周围放置一个专用的固定的机器人臂只做这个事情是没有意义的。
Jason Calacanis
除非你是自助餐厅。我看过,有一款叫做 dishbot 的机器人,它使用磁力来拿起物品,但你必须使用相同的餐具。所以他的自助餐厅使用相同大小的碗、相同类型的杯子,它们是塑料制的,而不是瓷器。你可以真正使用它。但是对于特斯拉的乐观主义者或市场上的其他机器人,它们可以去你的后院找工作。所以它们不适用。
Peter Chen
确切地说,它们不需要在一个固定的设置中行走,只有高产量的工业环境才能负担得起,商业厨房是另一种工业环境,所以这将是一个非常重要的平台;基本上,它将使机器人在更多的用例中得到应用,开始自动化那些不频繁、不经常发生的事情,所以需要进行非常重要的技术建设。
就个人而言,我对这个问题没有一个具体的时间预测,因为这是一个非常艰巨的挑战,你试图做很多事情,每一个都不是非常高价值,但你需要能够做很多这样的事情,对硬件平台的通用性和成本造成了很大的负担,因为每一个单独的事情都不会有很高的价值,这也意味着如果你的人形机器人的成本是 100 万美元,那是不行的。
Jason Calacanis
说道,除非你有很多可支配收入,否则无法在家中使用这些人形机器人,但是在某些应用领域,比如军事或者可以进入燃烧的宠物店救出宠物的消防机器人,你可能愿意支付一百万美元;实际上,我们现在已经有炸弹拆除机器人了,它们只是看起来不像人类,而更像小型遥控车对吧?
当你建立这样一家公司并努力找到产品市场契合点时,你必须找到能够提供最大价值的领域。在短中期内,你有客户,但同时要考虑长期来看,最大的机会在哪里?在某种程度上,作为创始人,你正在进行强化学习,就像我们之前讨论的下棋机器人一样,你可以玩短期游戏,即我们必须进入工厂,找出如何在不损坏的情况下将薯片和电池装进盒子中,并且能够在全年 365 天、每天 24 小时内快速完成,但是同时赢得游戏可能意味着失去一些客户,但是构建一个通用目标的机器人,你可以将其中 100 个放入工厂,只需说“去找工作”,这真是一个有趣的概念。
Peter Chen
这非常有趣,我们相信关键的方式是不断构建通用 AI ,因为它将超越当前所关注的任何用例和构建在其之上的硬件平台,因为对物理世界的概括性理解以及如何与之交互是独立于用例、用例频率和硬件平台的;从协变的角度来看,我希望像 Tesla Optimus 这样的硬件平台今天已经存在,这样就可以让我们的 AI 、基础模型解决更多问题。
Jason Calacanis
我认为硬件方面最大的问题是什么?是执行器吗?是创建滑轮系统吗?我知道有许多不同类型的滑轮系统,似乎有什么问题。
Peter Chen
从人形机器人的角度来看?都只是。
Jason Calacanis
一般来说,我们可以讨论人形机器人,但我认为一般来说,机器人还不能做什么?有没有一些阻碍,所有人都在关注,就像存储曾经是互联网的问题一样?如果在机器人领域有类似的问题,是那些执行器还是滑轮系统,创造了手臂的力量?或者是手指的尖端,用于区分成熟的草莓和硬实的玉米?你如何看待这个问题?
Peter Chen
实际上,对于普通用途的人形机器人和更传统的机器人自动化来说,两者的区别在于:
更传统的机器人自动化是否能快速定制?对于你想解决的每个物理问题,通常可以想出一些巧妙的机制,使问题变得更容易,所以问题并不是人体需要完成的每一件事情,在那方面的硬件挑战不是任何单个个体中的任何一个,而是对于每个新问题,你都需要稍微定制你的硬件设计,而你的定制速度正是这个核心所在。
人形机器人很有趣。人形机器人,我认为它既是一个产品问题,也是一个硬件问题,就像我们今天无法建造出与人类一样出色的人形机器人一样,但是你应该建造什么样的第一个人形机器人产品呢?就像你所说的,也许我们应该首先建造一个专注于拆除炸弹的人形机器人,对吗?一旦你明确了这个产品问题,你就可以找到解决方案,像真正困难的是工程设计一个与人类一样出色的东西,那太笼统而模糊了,这是一个我需要解决的过于笼统的问题。
Jason Calacanis
我喜欢你所采用的方法,我们知道电子商务和包裹运输的总可寻址市场是高交易量、高交易和高价值的,所以它确实具有很多,如果你画一个圈,高交易量、高交易、高变异性或复杂性可能是一个更好的词,而且还涉及到资金,确切地说,交易金额可能很小,平均每笔交易可能是 40 美元,但每天有 100 万笔交易从这家工厂出来。
确切地说,这意味着你每天有价值 4000 万美元的产品出货量,每年则更多,这是非凡的,有多少价值?当你研究其他市场的可寻址市场时,显然工厂是其中之一,但它们是精密的机器。我认为它们与你所做的事情关系不太大,因为没有变异性。
Peter Chen
实际上,这个问题非常重要。让我提出两点评论。首先,复杂性和变异性路径实际上是构建机器人通用 AI 的一个非常重要的部分,因为我们在仓库和分销中心构建的 AI 可以看到实际上存在的任何物体,这为我们构建能够在其他地方工作的 AI 提供了非常好的训练基础。
如果我们考虑我们正在部署的用例类型,可以将它们视为构建未来机器人的起点,因为关键洞察在于能够理解物理世界并与物理世界进行交互的 AI 几乎与用例和硬件平台无关,通过在一个行业中找到这些高交易量的用例,我们能够启动这个良性循环,开始构建 AI 并解决机器人的数据问题,而其他人无法获得这些真实数据和真实机器人交互。
Jason Calacanis
非常了不起,看来人们对 AI 的理解和在世界中的重要性已经赶上了你的愿景,这真是太好了。
我猜很多投资人过去 5 年对你表示怀疑,现在却在敲你的门,询问如何获得分配,或者从实际角度来说,作为一位创始人,当人们认为创业太难、不好时,对所有人都说这将是一个烧钱坑,而现在每个人都说,天哪,这是未来,它已经到来了,我需要弥补 5 年前没有支持你公司的错误,你一定有很多回头愿意投你的投资人。
Peter Chen
非常有趣,因为当我们创办公司的时候,"基础模型"这个词甚至还不存在,所以当我们开始告诉人们我们所做的是构建一个能够跨多个任务学习、跨多个机器人学习的 AI 时,人们会说,我不明白为什么一个特定的 AI 不更好,为什么你不只是训练一个特定用例、针对一个特定客户的 AI 呢?
今天,再也没有人会提出这样的说法,因为人们已经看到 GPT-4 在翻译方面比 Google 翻译更好,尽管 Google 翻译也是一种基于深度学习的 AI 翻译系统,但它更加专注于特定任务;事实证明,通过学习许多与翻译无关的语言任务,GPT-4 在语义、历史、流行文化、语法等方面对世界有了更好的理解,这使其在翻译方面比专门为翻译构建的 AI 要好得多。
因此,过去半年左右, OpenAI 和 Anthropic 的成功对我们非常有帮助,这些地方真的做得很好。
Jason Calacanis
一些风投公司回头了,其中一些风投公司在拒绝你之后给你发邮件,我猜是这样。
Peter Chen
当然,我可以说兴趣明显增加了。
Jason Calacanis
这是创始人最伟大的感觉,你整天都在面对拒绝,在这个 AI 热潮之前,你肯定会见过 100 个投资人,收到 97 个拒绝,对吗?90%~95%的拒绝。
Peter Chen
我们比较幸运,内部有非常大的支持者,所以实际上不需要在外部进行非常广泛的融资。
Jason Calacanis
我猜你们是 OpenAI 的一部分。
Peter Chen
Index 的 Mike Volpey 一直是我们行业通用模型的坚定支持者,所以我们在那方面很幸运,但这不仅仅是投资人,也包括客户,因为就像这个回旋镖一样。
Jason Calacanis
客户?
Peter Chen
关于通用 AI 是比特定 AI 更好的方法的整个论点,以前客户也不相信,但现在他们真的无法再拒绝了,因为整个世界正在朝着这个方向发展,没有人想要在自己的特定数据集上训练特定的 AI 模型,这将导致性能低于更通用的 AI 平台,所以这个趋势对于我们过去几年所采取的方法来说,既是验证,也在资本市场和各个不同方面给予了我们巨大的帮助。
往期精选合集 🧃
Nvidia|Microsoft|DeepMind|Tesla|AMDOpenAI|ChatGPT|GPT4|Train|MarketxAI|Anthropic|Inflection|HuggingFaceWeights&Biases|Cohere|CoreWeaveMidjourney|PineconeAdobe|Snowflake|PalantirNotion|Substack|Miro|AirtablePerplexity|Synthesia|Character|CovariantGamma & Grant LeeTome|TypeFace|RewindSpeak|Khan AcademyX|Nerualink|WorldCoin|RecursionElon Musk|Bill GatesPaul Graham|Marc Andreessen|Peter TheilDario Amodei|Jim Keller|Yann LeCunBVP|Khosla|Lightspeed|Yosemite|Index
活动1:机器·人·智能|重构未来哈佛大学(无锡)校友会周年庆暨AI高峰论坛(预告)
本次活动将定向邀请国内头部机构的投资人、明星创业公司、头部大厂从业者、全球顶尖高校的研究人员和学者,本次活动信息如下👇
时间:2023.08.26~2023.08.27
地点:无锡
人数:300人左右
嘉宾邀请:请添加微信 jiangtian26 与您对接
Unity Open Day 是一系列全国巡回的线下活动,旨在搭建-个开放的技术交流平台,强化和赋能 Unity 本土开发者社区。
Unity Open Day2023 技术开放日上海站将于 2023 年9月 2日在上海卓美亚喜马拉雅酒店隆重举办。我们诚挚地邀请您参加本次盛会,聆听与 Unity 相关的最新技术经验和产品工具,领略 Unity 实时 3D 渲染技术赋能的行业心得;本次活动信息如下👇
时间:
2023年9月2日(星期六)
地点:
上海卓美亚喜马拉雅酒店
浦东新区芳甸路 1188弄 1-4 号证大喜玛拉雅中心