AIGC在中国还有哪些创业机会?院士创业者、天使投资人这样说|Alpha Founders Club
6月下旬某个下午,阳光明媚,HiDream.ai的办公空间内,30余名对AIGC关注的创业者、科技极客、高校学者围成一圈,三三两两的交谈,他们是来参加Alpha Founders Club(AFC)的活动,本次活动主题为「由OpenAI看技术创新如何开启的最佳实践」。
Alpha Founders Club是阿尔法公社的传统节目,主要目的是无限拉近潜在创业者和天使投资人的距离,创造工业界和学术界一起深度交流的机会。有数位创业者通过此前的Alpha Founders Club获得阿尔法公社的投资。
AFC系列活动,我们将持续举办,下一期的活动已在筹备中,若您有兴趣线下与重磅嘉宾、天使投资人深度交流,欢迎扫码并填写问卷,我们将为您预留位置。
本次活动是Alpha Founders Club在疫情后重启的第一期,由加拿大工程院外籍院士,HiDream.ai创始人兼CEO梅涛与阿尔法公社创始合伙人许四清作为嘉宾与大家交流。
下午4点,许四清和梅涛院士与大家打招呼,活动正式开始。
在大模型领域创业,创业者不要因为“钱袋子不鼓”就止步
一开场,许四清首先对中美AIGC早期阶段的投资动作进行对比:在种子轮和天使轮,中国最近2-3个月总共就投了20-30笔,而美国每个月都有30多笔,美国的投资人已经被唤醒,但一部分中国投资人仍然在犹豫。不过这也侧面说明在中国无论是创业还是投资,这一波AIGC的创投高潮还没有到来。
“它是现象级的!还没有融资,去年收入就上亿,今年的收入更可能翻一番。” 许四清高度评价Midjourney。他同时又表示:和Midjourney相比,就创始人段位来说梅涛院士是更高的,产品和模型能力上,HiDream.ai在未来也有望超越Midjourney。
很多投资人和创业者认为在AIGC领域创业就意味着必须烧巨量的钱,许四清从大模型训练的Pipeline切入,解释这是一种 “误区”的原因:在训练大模型时,99%的训练计算成本和时间都花在了预训练阶段,在此后的微调和对齐等阶段,所需要的计算资源是相对很少的。所以利用基础大模型进行微调,或借用大模型能力利用专有数据训练,其实成本很低。
他为在场的创业者总结道:“不要因为自己钱袋子不太鼓就止步了,你根本不需要那么多钱!”
大模型创业的三大系统性机会
在浅表层应用的具体方向上,许四清认为最有“钱途”的是营销和动漫这类直接围绕客户的核心业务和“钱袋子”的方向,其次是“法律”等提升效率的服务 ,大模型已经把很多公司的边界打破了,不容小觑。
创业者应该找与自己同频的投资人
“在大模型创业上,OpenAI出现在美国一点都不奇怪,因为它的创新机制很到位,我们客观上还是有差距,但是我们的人工智能学者和工程师在通路被探索出来后,非常有机会在垂类领域快速赶超。”许四清指出适合中国客观实际的创业路径。
“梅涛院士就属于这一类,他对技术和创业很有热情,讲起来就眉飞色舞,一下就把我们打动了。阿尔法公社是HiDream.ai的种子轮投资人,我们还联合了15位科大校友一起投他,想法就是创业者和投资人携起手来,共同创造。
创业者在选择投资人时一定要思考他是不是与你同频,认知上是否一致,因为早期投资是和创业者共同探索,他要承担很多风险,要有很强的认知能力和很多的资源,我们阿尔法公社愿意和大家一起探索这个事。”许四清接着补充。
梅涛院士也Echo了许四清:“创业注定是一个少数人的事情,创业者就是要把看似不可能的想法变成可能,这非常不容易。阿尔法公社不仅会在财务上支持你,而且也会在精神上支持你。我非常同意创始人要找和自己同频的投资人这个观点,在投资人中,像许师兄这样认知持续和我在同一个频道的,非常少;创始人融资确实需要钱,但更多也是有情怀的,更需要同频共振的投资人。”
大模型就是参数,能力都要超过别人一个level
很多人认为大语言模型都有千亿参数,视觉大模型是不是应该万亿参数打底?梅涛院士对这种误区进行了修正:“我们搞技术的人有一个共识,在你的垂直领域里,模型参数比别人大10倍、能力超越一个level而且模型能力是通用的,那就是大模型。但我们HiDream.ai不仅想做基础模型,还要做垂直的应用,这是我们的全栈性。不过,这并不代表我们要布局所有行业,我们想先重点关注游戏和电商两个行业。”
大模型为什么必须多模态?
大模型为什么必须多模态?梅涛院士表示:大语言模型里的误区是,大家认为这是一个文字建模的语言模型,其实人类从交换信息到语言沟通,天然就是多模态的形式。
我们在交流时,不仅要说话,脑子里还要把话语(语音)转换成文字,还要做手势,以及眼神的交互,所以人与人交流的本身就是多模态的,现在基于文字的大语言模型做得好,只是因为文字的tokenization(分词)做得好,其他模态其实也非常重要。
所以在AIGC领域,我们很快就会从单一模态跨越到多模态时代,多模态不仅包括文字、语音,图片、视频、3D、甚至Sensor(传感器)都是一个模态。
HiDream.ai 想要做的事情是提高视觉模型的多模态能力,把图片、视频、3D的内容放在同一个框架里面去训练。
怎么提高视觉大模型的天花板?
梅涛院士阐明现有的视觉模型遇到几个关键挑战:第一是怎么让模型把Prompt和世界的各种关键信息关联起来,更好地理解人们的意图。第二是细节,怎么精准地生成人脸、手指以及其他具有高度真实感的细节。第三是关系,在任何一张AIGC的图片里,要实现多个人之间拥抱、握手这一类动作,目前的生成结果大概率都会有问题。
为什么会有这些问题,因为现有的视觉模型的天花板还比较低,没有超过百亿参数的,大部分是十几亿到二十几亿的参数量。我们之所以敢于出来创业,是因为我们和大洋彼岸的对手其实还在同一水平线,只要我们跑得快,就很可能超过竞争对手。
大语言模型可以全球各个地域做,因为有阿拉伯语等各种小语种,但是视觉模型必须做全球化的,因为一图胜千言。
6周时间训练60亿参数视觉模型,产品要超过Midjourney
“相比之前在大公司里每一个 milestone(里程碑)按季度计算,从3月成立公司,到4月初资源和团队完备,到现在6个星期,我们已经做了一个60亿参数规模的视觉模型,并且已经达到Midjourney V4版本的能力。
所以有想法和抱负的人一定要自己出来干,这样一切都是加速的,现在我演讲的速度只是我平时说话速度的1/2。”梅涛院士对模型训练进度的介绍透出HiDream.ai团队的极速战斗力。
谈及创业的初衷,梅涛院士表示:我们不仅要做基础的多模态模型,也要做很多应用上的创新。我认为AIGC的服务模式,无论是语言模型还是视觉模型,一种是API,一种是按照Token来收费,这都是比较标准化的。
现在很多设计师都用Midjourney来生成素材,但是因为可控性的问题,Midjourney并没有进入到真正的工作流程。而我们想做的是从这种浅层次的生成素材做到更深一点,做一个很长的工具链,满足他们真正的需求。
另外,我们想做的是切入整个价值链的环节,做产品设计和营销,这两个环节和创意生成是非常相关的,我们也想把产品做成现象级的。什么是现象级,就是你输入一个很长的文本(作为Prompt),就能生成一个长视频。
AI创业需要算法+数据双轮驱动力
两位嘉宾的分享结束后,意犹未尽的创业者们立刻就提出了多个问题。
一位AI领域的创业者向梅涛院士提问:我们的创业方向是瞄准了企业服务的一个垂类 ,并跟AI结合,我们的思路是先有了应用场景,找准客户,再去想怎么利用AI去提效,您作为一个大模型领域的创业者,怎么去找商业应用的场景?
梅涛院士表示:在AI 1.0时代,首先找到业务,再去反推需要什么技术,我觉得这个思路是完全正确的。但在AIGC的新时代,我认为它是一场新的技术革命,它会颠覆所有行业,带来很多倍的效率提升。在这个时代里,就会有技术驱动创新的创业空间。
对我来说,我们会两条腿走路,一方面我们会把很大精力放在大模型的训练和微调上;但另一方面也会做应用,因为大模型要产生价值,还是要落地到应用层面。
一位创业者以Jasper举例,在ChatGPT出现之前,它的产品能力受到认可,增长也挺好,但是ChatGPT一出来就把它卷了,那么面临大模型公司的竞争,做应用的公司应该怎么建立竞争壁垒?
许四清首先回答了这个问题:这一轮大模型大力出奇迹,确实把很多创业公司给卷到了,但是在垂类还有机会,假如你在某一垂类有足够深的积累,就可以借着大模型去卷别人,你可以利用你的数据进行微调和RLHF(对齐),这样你下的功夫越多,微调后的模型在这个垂类里的表现就越好。
这样做的杠杆极高,创业者要敢于去到离AIGC最近的地方,那些看起来越“安全”、越不会被“替代”的领域,往往也是不需要创新的,也就更不安全。
梅涛院士对许四清的观点进行了补充:AI创业公司两个核心的壁垒,一个是算法,也就是有没有基础大模型,这个模型够不够强,有没有做这个基础模型的高密度人才梯队;另一个是能不能构建数据飞轮。要有壁垒,一定要构建算法和数据的双轮驱动,因为它们是相辅相成的,好的数据能让模型越来越好。
数据壁垒至关重要:如果一个行业的数据很容易拿到,那么创业公司进入就必死无疑,分分钟就被技术强的公司颠覆了。如果这个行业的数据外界很难拿到,例如法律的文书或游戏的设计草图,那么创业公司具有闭环数据优势,即使模型能力一开始比不过别人,后续在数据的驱动下,也会越来越好。
创业者和技术极客们的问题一个接一个,许四清和梅涛院士也一一详细回答,直到天色向晚,活动才结束,而还有创业者找到许四清继续深聊。