Midjourney创始人分享创新心法:Midjourney是怎么成功的?为什么VR的发展让人失望?
————
大卫·霍尔茨(David Holz)曾经是著名公司 Leap Motion 的创始人和CEO,该公司为使用摄像头和手势的计算机创造了一种新的用户交互界面范式。在创办和运营 LeapMotio 的12年间,大卫曾两次拒绝了苹果公司的收购。
MidJourney的创始人大卫·霍尔茨
2019年,大卫把 Leap Motion 公司卖给了竞争对手 Ultrahaptics。随后,他成立了一个工作室来探索新的机会,在AI生成艺术方面取得了突破,今年5月,发布了 Midjourney产品,在Discord (https://discord.gg/midjourney)上已经获得了495万用户,其独特之处是通过机器人对话来完成创作。更让人吃惊的是,这次创业过程,大卫没有拿过风险投资,公司就已经盈利了。他是怎么做到的呢?
下面这张是Midjourney V3版本生成的作品——报童,它比任何其他AI生成服务都更像艺术。
然后,霍尔兹团队又推出了V4版,改进了这些地方:
更多的知识(关于生物、地点等)
更好地掌握小细节(在所有情况下)
处理更复杂的提示(具有多个详细级别)
更适合多对象/多角色场景
支持图像提示和多提示等高级功能
支持chaos arg(从0设置为100)来控制图像网格的种类
虽然 Midjourney 的作品美感要比艺术家创作略逊一筹,但客观地说,它比其他AI的图画要好得多。
下面这张图画,这就是 Midjourney 所画出的大卫(用他的Twitter头像作为提示):
成长经历
大卫·霍尔茨(David Holz)在佛罗里达州南部的劳德代尔堡长大,他父亲是一名牙医,在帆船上有一个牙科诊所,因为他经常去南美的加勒比地区看病。
在大卫出生后,他父亲有了一个固定诊所,但是在一个奇怪的城镇地区,那里没有其他孩子。所以,霍尔茨常常独自一人。他花了很多时间在电脑上。第一台电脑是他父亲工作时用的电脑。
父亲让大卫五六岁的时候就开始学编程。刚开始,大卫并不是很喜欢,因为没有动力去学编程。后来,他了解到,如果编写了正确的一系列咒语,就可以破解绝地武士的黑暗力量,给他特殊的力量,比如从手中发射火箭。其实,这就是修改视频游戏,但这让霍尔茨第一次有动力真正使用编程技能。
对大卫来说,可以编程给自己星球大战的力量,是一个完全不同的游戏。
大卫觉得自己更像是一个科学家,而不是工程师或程序员。因为他对科学、实验和探索更感兴趣,他常常跟父母说一些发明的想法,有些东西这样或那样弄一下会更好,“为什么不是这样?”。他的父母从不说他提出了一个不好的问题,而是非常鼓励他提问,尽管有些问题很难回答。
解读:
大卫·霍尔茨的童年是孤独的,但是他有一个善于发现他兴趣和能对他做启发的家长。在他掌握了基本的编程技能后,他树立了一个目标,去修改电子游戏,因为学习编程本身并不够形成具有吸引力的目标。
所谓学习的自驱力,很多时候就是一个人能自己找到目标,形成的动力。
任何人都需要动力来完成某件事情。对孩子来说,“我要学习如何编程”并不够,这不能激发他的动力。需要给孩子设定一个他认可的一个目标,才能完成某件事情。
对工作也类似,因此,找到一个能驱动自己的目标变成了大卫的一个关键思维。
作为数学博士,怎么转到科技创业呢?
大卫从小仰望历史上伟大的物理学家,希望像他们一样,更了解宇宙。所以,他大学选了物理专业,后来也开始学习数学,最终以数学和物理双学位毕业。
读研究生的时候,大卫希望能选择跟现实有联系的专业,于是选择了应用数学。
之后,他在北卡罗来纳大学教堂山分校(美国前30名的大学)攻读应用数学博士学位。还做了很多事情,比如在NASA兰利研究中心研究激光雷达、大气科学和火星任务,并在马克斯·普朗克研究所合作进行一些神经成像项目,比如绘制一些早期老鼠大脑的地图。
大卫发现任何一件事都不够让他专注。于是,他决定后退一步,选择了在自己的公寓里做Leap Motion的原型。这是他真正感兴趣的事情,他在做所有其他事情的时候都在思考,他只想专注于做好这件事。
其实,从大卫中学时,他就有了Leap Motion的创意。
他13岁时,曾试着学习做3D建模,这真的很难。这对很擅长电脑的他来说很不可思议。电脑上有很多很好的3D模型,他不觉得自己有什么问题,电脑也没什么问题。所以,他认为问题一定是在人机界面进行交互的方式上。他想,“人们与技术互动的方式有一限制,这应该能变得更好”。
在高中结束的时候,他想,也许可以用算法来跟踪手的动作。于是就开始设计这样的东西。一直到他读研究生的时候。他不断地学习很多技能来处理它。
因此,选择专注于一件事时,大卫决定创办一家专注于解决人机交互问题的公司。他认为,“技术的最大限制不是规模、成本或速度,而是人们如何与之互动。我们有多聪明,技术有多好,我们如何合作,从根本上决定了我们能做什么。”这就是Leap Motion的核心价值。
大卫在Windows支持触摸屏之前就开始做空中手势控制了,做了很多与Windows系统交互的软件,但它很难被推广使用,因为它与触摸屏的功能几乎完全相同,而触摸屏已经被证明在智能手机上非常成功。
所以,大卫决定选择不同的场景,于是就选择了VR(虚拟现实),AR(增强现实)。这些市场一度发展非常快,然后放缓了。
事后看来,大卫觉得Leap Motion可以做很多事情,不限于VR和AR场景,也能取得成功。但当时,因为想要与进入新市场的新设备结合,Leap Motion的命运就与这些市场的总体规模联系在一起了。
解读:
一种新的用户交互技术伴随着一种新的范式。必须有一个完全不同的软件基础体系,来支持这种新的用户交互界面的使用价值。就像移动设备和触摸屏的结合一样。就VR而言,用手来控制和操控很有意义。
对VR现状的看法
大卫对AR和VR的现状感到失望。在VR的早期,确实看到了很大的发展潜力,每个人都非常兴奋。结果是,在该领域过早地发生了整合。
不仅仅是Oculus被收购了,还有其他二十几家公司被谷歌、Facebook、苹果和微软收购了。
在产品和市场趋于成熟的时候,这种整合是非常好的,因为可以将扩大规模。
但如果行业还处在较为早期阶段,还需要大量地尝试很多新东西,这样做就不合适了。
因为,既要多尝试新事物(可能有很多失败),又要做整合,大公司在这方面并没有什么优势。而且,大公司往往在设计中会考虑到扩大规模,太早做了一些折中。最终,由于这样的保守策略,拿出来的是设计不够创新的产品。
比较一下移动设备领域,有一个时期,每年都有数百或数千部新手机被设计出来。其中,黑莓手机做得相当成功,虽然从长远来看,它的外形是过时了,但它达到了用那个外形可以做到的极限。然后,苹果进来了,重新定义了手机领域。
对VR来说,也存在两个阶段,一个就像是,“好吧,让我们看看 Facebook或苹果是怎么做的?”,另一个像是,“黑莓、诺基亚或索尼或其他什么公司,推出了一百万种不同的设计,看看什么能坚持下去?”
在智能手机中,没有了物理键盘,这是设计所决定的。但我认为VR和AR可以有更多的选择,有更大的设计空间可以探索。外形尺寸可以更大或更小,价格可以以更高或更低。
因此,大卫认为VR和AR领域,确实需要12家公司去制造创新的产品。然后在这些公司中的产品中,找到更接近于对每个人都有吸引力的产品,并经过2代的发展。
如果相反,市场上只有一两个产品,只有三到四年的一代周期,几乎是在创新市场中最糟糕的事情。
如果VR像其他技术领域那样,都是有充分的技术竞争阶段,现在这样的事情就不会发生。
因为没有充分的竞争,大胆的创新很难涌现,市场上也产品就很难产生大的迭代创新。
VC(风险资本家)或其它的企业家会觉得,已经有了Meta,在VR的竞争没有意义,没有人会投资另一种创新的VR产品。
而且,在这些收购之前,已经有了一个生态系统,如果你需要一个摄像头系统或扫描系统,都可以去找别的公司。在技术栈的每个方面都有不同的创业公司。然后,当开始整合后,所有这些小公司都消失了。如果出现一个新的创业公司,它没有任何其他创业公司可以合作。对新公司而言,必须自己构建一切,这是一项极其艰巨的任务。
在收购之前,所有的创业公司都在不断地互相交流,互相交换想法。这是非常开放的。创业公司之间没有太多的秘密。它并没有被视为特别有竞争力。然而,对于大公司来说,有巨大的防火墙,没有一家大科技公司互相交谈。
即便是在一家大科技公司内部,有更大的团队,没有人会和公司外的人任何人交谈。所以,你失去了所有的类似异花授粉这样的基因变异的可能性。
最终,这个行业会进入一个相对缓慢的发展状态,导致整个VR领域造成损失。
还有一种观点是,你想在某个公司变大之前收购它,让它从市场上消失,让公司所有的人都在新市场上工作。
在某种程度上来说,Facebook 对 Instagram 就做了这样的事情,有效地在公司成为竞争对手之前收购公司,有效地雇佣所有人。这也是大公司裁员的原因之一,因为事实是,不需要这些人来作为一个企业运作,雇佣原公司的所有人并不是因为他们需要这些人。
AR/VR 要重新回到生态平衡可能需要几年时间。虽然很多人都从不同公司的AR/VR 团队辞职了。但辞职和决定再次进入这个领域是有区别的。这不仅仅是工程师的问题,也是投资者的问题。投资者和工程师必须达成共识:“现在是我们再次尝试建立AR和VR公司的时候了。”
解读:
这就是 VR 现在的问题所在,Facebook很早就收购了Oculus,改名为 Meta后,在 VR 上投入了巨大的资源,明确地致力于这个领域,却带来了大量的保守主义的设计。
从生物学视角看。巨头们破坏了生态平衡,需要较长的时间的恢复。由于巨头是批量收购的,打破了整个VR和AR生态的公司间协作,也让VC不敢轻易下注这个领域,这就让创新的公司很难长出来。当然,这样的局面会被打破,AR和VR的开发人员重新开始创新,但需要时间。
Midjourney 的故事
Midjourney 的目标之一是建立新的人类基础设施,大卫认为世界将需要很多新事物,需要基础设施来建立新事物。所以他想了很多关于建立新形式的人类基础设施的想法,比如基础设施的新支柱。
而大卫认为支柱是反思、想象力和协调。"你必须反思你是谁,你想要什么。你必须想象可能是什么。你必须协调才能到达那里。"
大卫有一个目标——以某种方式创造一个更有想象力的世界。他认为世界上最大的风险之一是信念的崩溃,对自己的信念,对未来的信念。部分原因是缺乏想象力,缺乏对我们可以成为什么样的人的想象力,缺乏对未来的想象力。所以霍尔茨认为这种想象力是人们在世界上需要的东西的重要支柱。于是,霍尔茨想到了AIGC,他认为,“可以把它变成一种力量,可以扩展人类的想象力。”
他认为,人类将通过计算机进行想象,就像他们在通过汽车去旅行一样。人类在想象事物的过程中以某种方式相互作用,有共同想象的空间,创造这种共享的想象环境。
对这样的愿景,有很多未知的东西。比如,不知道人们如何与之互动?他们想要从中得到什么?生成机制是什么?用户界面是怎样的?通过什么组件来构建这种体验?
大卫借鉴了开发 Leap motion 时候的经验,不是去设计一个从无到有的体验。而是假设可以以某种方式看到未来的10个步骤,然后做一堆东西,看看什么是酷的,人们喜欢什么。再把其中的一些放在一起。
令人惊讶的结果出现了,尝试了10件事,找到了最酷的3件,再把它们放在一起,这时候的感觉就像不仅仅是3件事,因为组合之后,在复杂性和细节上成倍增加,也觉得它有深度,即使它看起来并不多。
总之,找到三件很酷的东西,然后开始用它来制造产品,这是魔法公式。
因为有很多开源的技术,可以把足够多的碎片放在一起,对这个发现进行排序。
大约16个月前,团队开始训练一个模型,刚刚发布的V4模型差不多花了九个月的时间。后来,花了两个月的时间自己使用它,形成反馈和意见。
最开始很慢,需要20分钟制作出一张好看的图片。霍尔茨认为“我们不需要那么好的画质,但我们想要速度。”。所以,工程师 Daniel 霍尔茨一起做了一个做15秒生产图片的版本。
然后,团队做了一个用户测试,看看会发生什么。一共有200人,两种算法都有,一个是20分钟生成,还有一个15秒生成。
事实证明,人们更喜欢质量较低的图像。也就是说,速度很重要,质量并不重要。这个认知也是片面的。
随着时间的推移,团队了解到,速度和质量都不重要,但需要存在不同的速度选择,让人们能够学习。
一年多前,大卫的团队把 Midjourney 投入公测,很多人表示喜欢用它,作为一个社交网络中的元素生成工具。
事实证明,10秒太快了,60秒刚好。在那段时间里,发布了两个版本,60秒的版本和10秒的版本。基本上,没有人关心这个10秒的版本,因为60秒更漂亮,60秒也不太慢。
如果 AI 生成速度太慢了,用户就学不到多少知识。如果它真得很快,也不能以其他方式感觉良好。所以,最终发布的版本是让生产时间变得更慢了。
对质量而言,有一个黄金区域,目前只需让生产结果达到该区域内的质量。
对初期的用户界面,大卫团队选择了 Discord(一个类似群聊的社交网站),最初选择 Discord的原因是因为霍尔茨团队是一个远程工作的团队,所以建立了一个 Discord 机器人。
后来,团队用同样的机器人在 Discord 上做了一个用户测试,每个人都很喜欢这个,实时地交流想法,创造富有想象力的环境,分享知识。
大卫认为,从产品创建体验的第一天开始,就必须了解你的市场,必须知道什么是六个用户步骤。重要的是人们有一种情感共鸣的体验,能让用户感觉到一种情感反应。在某种程度上,如果人们对你的产品感到情感反应,你就有80%的成功率。
自今年5月推出beta版后,这款搭载在 Discord 社区上的工具迅速成为讨论焦点。
大卫看到了“Discord”体验的神奇之处,生产图像需要一段时间,如果用户在一个公共频道,等待你的图像生成时,会看到所有其他图像,这很鼓舞人心,因为其中一些图像之美令人难以置信。另外,你可以看到其他人使用的提示关键词。然后意识到,“哦,他们做了这个XYZ的东西,我应该在我的下一个尝试一下。”。这种共同的发现期待都包含在这种 60 秒的体验中,在第一次测试中自然而然地出现了。
于是,大卫决定建立一个 Discord bot 团队,全力以赴做好体验。因为人们喜欢它,其他什么都不重要。霍尔茨认为很多聊天机器人试图成为一个人,这很糟糕。大卫觉得,Midjourney 体验如果只是一个人在房间里和聊天机器人聊天是完全行不通的,但是当它在一个有很多人的房间里时,就变得非常有趣了。这是一个从未见过的领域,聊天机器人在一个多人的环境中,人们之间有一些事情可以谈论,想法不断涌现,而机器人每隔几秒钟就会产生令人难以置信的图像。机器人不是试图成为一个人。就像一个协作的命令行界面或协作搜索或某种协作空间。
最让人感到惊讶的是,这样的群聊环境能帮助一个不了解产品的普通人更好地了解产品。
正常情况下,人们会这样说,“好吧,这是一台机器。它会让你画出任何你想要的东西,任何你能想象到的东西,你想要什么?”用户只是说,“狗。”
然后,AI 给用户看一张狗的照片,然后用户说,“好的。”
然后他们继续说,“大狗。”
然后AI一直在问,用户说,“大的、毛茸茸的狗。”
最后,出来的结果,用户可能不感兴趣,觉得这些都不有趣,我为什么要关心这个?。
假如你突然把这些人扔进同一个环境,和完全陌生的人在一起,用户说,“狗。”,有人说,“太空狗”、“带激光的太空狗”、“带激光和天使翅膀的太空狗”。
用户在这个富有想象力的环境中,开始改变他们对自己和他们能做什么的信念。用户也不用觉得自己很蠢,然后说,“我该怎么做?”,只是坐着观察,这就是人类一般的学习方式。
因此,Discord的机器人创造了一个富有想象力的环境,让人们更有想象力。
如果有人在一年前说,“大卫,想象一下一个产品入门体验,你把某人扔进一个房间,让他从其他更有想象力的人那里学习。”我会很难想象那会是什么?所以,Discord的出现真的很酷。
Midjourney 使用起来很简单,注册Discord账号之后,即可进入 Midjourney 频道,随后可以加入公测服务器。只需要输入命令提示符,就可以生成对应的高品质图形。它可以让用户避开复杂的使用技巧,同时可以用算法让机器想象电子羊的模样。例如,当你输入“An android dreaming of an electric sheep”,就可以得到如下图像:
Midjourney 不是一个有大量参数可以用来更改和实验的界面,甚至不是一个带有简单快捷按钮的干净UI(比如Dall-E mini或者Nightcafe)。它的呈现方式不是作为一款应用,而更像是一次对话,归根结底,使用 Midjourney 就相当于问一个朋友“你怎么看……”。
有一个50多岁的卡车司机,他在加油站用他的智能手机使用“Midjourney ”。这不是普通的“Discord”用户。Midjourney调查发现,有许多45岁以上的人和18岁以下的人在“Discord”服务器上,这与正常的“Discord”人口统计数据完全不同。老年人实际上有更多的单词和更多的经验来创造东西,有时他们会从其他图像中制作图像。
之所以能够让休闲用户保持如此高度的投入,是因为 Midjourney 给人的感觉是用起来简单且无约束,让我们感受到一种不可思议的力量和流动,就像最让人上瘾的沙盒游戏那样。
Midjourney 拥有游戏的一切要素:一个可以让你“想象”任何事物的可靠核心圈层,像魔咒一样灵巧的提示符,以及基于社区的开放文化,能够让它易于迭代、学习、发现和发展。
比如输入purple human with wings,就可以得到带有紫色翅膀的人类图像,而且可以根据自己的喜好选择对应版本(如下图)。
带有紫色翅膀的人类图像
不少专业人士正在借助 Midjourney 提升自己的创作,比如法国设计师 Etienne Mineur 就用它创作了很多作品。
装置和雕塑艺术家 Benjamin Von Wong表示,他会利用AI来构建概念图,帮助他更好地打造实体艺术品,“对像我这样不会画画的人来说是个很好的工具”。
解读:
首先,大卫对这个技术的愿景定义非常高远。这个产品的目的不是为了替代艺术家们,而是帮助人类这个物种在想象力方面提升。当计算机比99%的人类更擅长视觉想象力时,意味着什么?这并不意味着人类将停止想象。汽车比人的速度快,但并不意味着我们不再行走。远距离移动大量物体时,我们需要发动机,无论是飞机、船只还是汽车。大卫认为AIGC这项技术是想象力的发动机。这是一件非常积极和人性化的事情。
其次,Midjourney 的产品研发路径很值得学习。对一个未知的技术,先进行发散,在各个方面进行实验,然后找到最吸引人的三个部分,对它们进行组合,完成收敛,然后持续迭代用户体验。
在用户测试的过程中,去测试关键指标(速度和质量),找到权衡点。并思考这些对用户体验的真正意义以及合适的产品标准范围。
在公测的时候,采取了非常独特的用户交互界面,当他意识到在这种群对话中用户体验的神奇之处后,立刻决定全力以赴做到价值,成为了最大和最重要的Discord聊天机器人应用程序。
而这样的产品创意,其实不是想象出来的,而是在实践中发生后总结出来的。让所有好的东西发生,是非常强大的创新力量。构建产品最重要的部分只是开放地发现事物的真实本质。
Midjourney 的生意模式
Midjourney公司目前只有约10个员工,其Discord已经获得了492万用户。
Midjourney目前的收费模式采用了订阅制,对于个人用户或公司年收入少于100万美元的企业员工用户而言,一共有两个档位的订阅套餐分别是每月最多200张图片(超额另收费)的10美元/月,以及“不限量”图片的30美元/月,而对于大公司客户而言,单人一年收费也仅有600美元,并且生成的作品可以完全商用。
因此,Midjourney 已经实现了盈利,而且没有拿过投资。
为什么 Midjourney 无需风险投资就能取得如此成绩?为何它能在创新过程中如此明确地专注于一件事?
大卫说,他在Leap Motion经历了很多痛苦的经历。所以他的第一个目标是设计一个实验室,从一开始就不需要风险投资者。所以,大卫用了一个特别的业务模式。他不需要去任何人那里,去解释具体业务是什么,以便有钱开始做研究。而是明确了一个专注的目标,有方法来调研,并找种子用户进行测试。在适当的时候,对产品收费。
当然,大卫之前的创业已经获得了声誉,许多人知道他是谁。
大卫可以快速组建团队,把合适的人聚集在一起。因为大家都知道无论大卫要做什么,都会很酷,并且能够解决这个问题。
而当大卫需要找到一个云供应商提供10,000个GPU时,他给云供应商的负责人发电子邮件说,“嘿,这是大卫在做一件事。”他们就可以给到这些资源,并不需要风险投资。
当然,大卫也可以找投资人融资,也能获得所需的投资。
大卫找到了一个合适的商业模式——付费SAAS业务,用会员订阅制。这是一个非常诚实的商业模式。用户想制作图像,它们在云端服务器生成,Midjourney有利润率。
第一个月,是亏的,因为有一些超级用户用掉了大量算力。第二个月就盈利了,因为团队建立了保险制度来防止这种情况发生。
当发现开始赚太多钱的时候,就试图降低利润率,因为大卫认为真的不需要在早期就有这样的高利润率,只是试图推动它为所有用户提供更好的服务。团队随时可以调整利润率,能达到可以支付研发和其他东西的费用的利润率即可。
从成本来说,大约10%的云成本用于训练,90%是用户制作图像的推理。所以几乎所有的成本都在制作图像上。
所以,团队在早期做了很多创新的东西来降低成本。现在,如果你在 Midjourney 制作一张图像,世界上有八个不同的地区的服务器可能会来制作图像,比如韩国、日本或荷兰等。GPU会在八个不同的地区之间进行平衡。
原因很简单,在每个时区的夜间,当地人都在睡觉,没有人使用GPU。Midjourney就可以充分利用这些算力,实现GPU负载平衡。可以理解为,这个调度是在地球上的夜晚与黑暗赛跑。
对全球可以供应的GPU总量来说,Midjourney已经占了10%的量。
假如明年Midjourney增加10倍的量,云计算就会耗尽机器。因此,Midjourney有了一个计算供应链,这是一个非常有趣的概念,在大型模型出现之前从未有过。
解读:Midjourney是大卫的第二个创业项目,他非常克制,没有拿融资,而是用很少的人来专注地做好一件事。并快速验证市场后,找到一个很棒的商业模式——SAAS,很快实现了盈利。
Midjourney 的成功说明了定位和MVP的价值。因为清晰的目标定位,好的方法论,能快速在一个混沌的市场中找到合适的产品形态,并通过MVP快速进行验证。然后,团队专注在某个有价值的具体业务方面,迅速形成技术优势。另外,由于找到一个有充沛流量的场景-Discord,实现了低成本获客,几乎不需要营销成本。而按需付费的云计算模式,也让其成本更有弹性,共同形成了一个有利润的商业模式。
仅仅不到10个人就在这么短时间内做成了一家伟大的公司,这也是大卫在第一次创业后能力成长和声誉所带来的红利。
雄心勃勃的 Midjourney 已经开启了AI的潘多拉魔盒,迎来人机合作,想象力大爆发的时代。
MidJourney生成的“潘多拉魔盒与AI”
———— END ————