其他
大模型的底座是这一轮AI革命的基石
2023年4月6日,昆仑万维CEO方汉现身“华尔街见闻”直播间,与主持人畅聊AIGC前沿科技趋势,解构生成式AI开创的新世界,并展望商业落地新机遇。
以下为访谈精华部分
B端C端商业化落地逻辑差异大大模型需要通过建立生态获取用户
方汉:商业化落地目前业界可以分为两个方向。一是大模型本身的底座,它应该是这一轮AI革命的基石。如果能够制作出一个比较好的中文大模型底座,必然能够在中国市场上获得很多的商业机会。
二是面向ToC或者ToB的应用层。ToB的应用层比较容易理解,即能够实现所谓的降本增效;在C端,我们可以看到这一轮AIGC能够让C端创作优秀内容的成本大幅下降、速度大幅提升、质量大幅提高,如此形成新的类似短视频平台一样的内容社区,我认为这其中的商业机会较大。昆仑万维也会致力于大模型底座以及应用层的努力和开拓。
主持人:对于ToB、ToC这两个不同的领域,您是如何看待未来的潜在成长空间?
方汉:成长空间不好评估,一般而言,B端企业成长速度比C端要慢。因为C端用户量巨大,增长速度非常快。但在这一轮的AIGC大浪潮中,可以看到,针对C端主要是各种端到端的内容创作工具,工具使用门槛越低,获得用户数也会成倍增长。所以,C端的商业逻辑就是使用方法足够简单,但创作出来的内容质量足够高,获得大批量用户,从而形成大量的内容社区。
B端目前AI生成内容或者是通用人工智能,需要和商业上的工作流进行结合。各行各业的技术落地,都需要大量工程上的工作,哪个企业能够先把行业的AIGC彻底打透,让用户认为这是一个行业标准,这个企业就能获得先发优势,或者是建立起护城河,并且优势有望将长期持续。
所以,对于C端而言是尽可能地制作出门槛足够低的内容创作工具,让用户能够更好更快地创作内容,B端实际上是针对行业打透、打深,这两个商业逻辑明显存在差异。
主持人:对于目前几个比较主流的商业模式,您如何看待?
方汉:目前在国外最主流的商业模式仍然是以API调用次数来进行收费。当然,C端也有针对C端直接付费的模式。但长期看,大模型应该是通过建立生态来获取用户,因为虽然一开始大模型有很大的垄断地位,但随着大模型的普及,必然是要针对行业提供商业解决方案,能够让它在这个行业获得足够多的用户。长期来看,这两种模式将会长期并存。
训练成本高为跨模态最大难点
长期看大模型行业安全性有保障
主持人:我关注到昆仑万维发布的昆仑天工,包含天工巧绘SkyPaint、天工乐府SkyMusic、天工妙笔SkyText以及天工智码SkyCode等全系列AIGC的算法与模型,这些模型各自的特色是什么?
方汉:不同的模型解决不同的问题。当然在预训练文本大模型方面,它其实是一个相对通用人工智能的模型,所以昆仑天工这几个模型的基石都是我们的预训练大模型,在此基础上产生的文本生成图像、文本生成代码以及文本生成音乐等方向,这几个也是针对我们日常工作流中最常见的美术工作者、音乐工作者以及程序工作者的需求而推出。
这些行业子模型,我相信也是将来大模型生态的一个经典形式,即一个大模型配上多个针对不同行业的子模型来协同完成工作。如果是只做通用人工智能的话,目前来看预训练的文本大模型仍然是最重要的一个基石模型。
主持人:跨模态研发难点主要集中在哪些方面?
方汉:首先,人类现存最大的数据集或者最准确的数据集仍然是文本数据集,所以文本预训练大模型增长最快。图片与视频的数据大多未经标注,需要大量的工作去进行标注,这非常消耗人力,这就导致在数据上就存在门槛。
其次,图像跟视频的容量远远超过文本,比如单个需要的存储空间更大,同理可知,大模型去理解一段文本所要消耗的计算能力以及去理解图片和视频所需要消耗的计算能力完全不一样。
比如,训练一个GPT-3的大模型或者GPT-4的大模型,只需要1000张训练卡,但训练图片跟视频可能需要1万张训练卡,所消耗的训练资源是以十倍的量级往上增长的。
主持人:我们看到昆仑万维一直倡导开源,您是如何看待封闭式以及开源大模型的区别,以及未来的竞争?
方汉:从长期看,开源大模型与闭源大模型之间永远是相互补充并存的关系。
很多大企业可能愿意使用闭源的大模型,但是中小企业一定是使用开源的大模型,对开源大模型进行二次开发和改造,使得其更加适应业务需求。所以对于有定制能力的企业开源大模型是最佳选择,对于没有定制能力的小企业,闭源模型是其能够得到的最好的服务。长期来看这两种模型是互相补充、长期并存的。
主持人:大模型的研发投入成本非常高昂,您认为可以采用哪些优化方法来节省费用?
方汉:首先,费用的高昂应该是短期情况。当大量优秀人才涌进这个行业之后,成本会迅速下降。目前看,优化存在于两个方向,一是算法底层的优化,随着一些开源大模型出来之后,有很多开源的工作者发布了自己的新方法,如斯坦福的羊驼法等,各种各样的方法迅速降低训练微调的成本,随着时间的流逝,训练单位的成本一定会逐步下降,这是第一条路径。
第二条路径,比较艰难,目前的训练主要还是依赖于美国英伟达公司的训练卡,长期来看国内也将有很多硬件公司在制作自己的训练卡,国内这个赛道上有4-5家企业。在国产的训练卡出来之后,基于国产的训练卡来进行成本的优化和下降也是可预期的,但速度应该没有软件优化来得快,所以相对是一条比较长而艰难的路。
主持人:我们也关注到未来在云端和本地化的这种两条发展路径,您是如何看待未来趋势?
方汉:并不是任何情况下都需要1000亿或者是10000亿参数的模型。在很多情况下,一个几十亿参数甚至一个几亿参数的小模型也能很好的完成工作。长期来看,本地部署对于一些垂直行业以及中小企业的特定场景非常有必要,不仅能降低成本,还能更灵活地去应对业务场景。但当我们需要高质量以及大规模的应用的时候,云端部署就成为强需求,且各自适用的场景也不一样,就像既有公有云也有私有云一样。因此,二者并行不悖,形成长期并存的局面。
主持人:对于大模型的安全问题,未来可能会有一些解决方案吗?
方汉:我们从源头上追溯一下,为什么是OpenAI的大模型取得了成功而不是其他公司的?之前Meta和谷歌也发布了自己的大模型,但由于安全方面的问题受到抨击,就回撤了。OpenAI的大模型之所以取得成功,本质上是因为它在言论安全方面取得了进展,比如在大模型诞生之初,就把安全性纳入到研究的重点,通过多种方法控制大模型,让它不生成虚假及有害的内容。随着监管日益完善,大模型也会越来越完善。所以从长期来看行业的安全性非常有保障。
人类对于言论安全监督的技术研究一刻也没有停止,而且进化速度也比较快。在可预见的未来,它起到的正面作用会远远大于它的负面作用。
行业垂直大模型将长期存在
创业公司可基于开源大模型做二次开发
主持人:我们关注到视频生成中会用到扩散模型,这类技术应用较多。您如何看待这种现象?
方汉:Decentralized model就是分散模型,目前在图像生成领域应用较多,视频生成目前还不是特别成熟。大家此前常用的GAN(生成对抗网络),效果并不出色,很快就被分散模型取代。引入了分散模型之后,图片生成领域的发展可谓一日千里,目前已经完全可以替代人类的工作,甚至比人类做得更好。现阶段,分散模型已经成为文本生成图像的一个公认的技术标准,应用方向也非常广。曾经需要美术完成的工作,现在基本上可以通过这种分散模型文生图的AI辅助创作来解决。所以据我所知,中国所有出海电商都已经完全采用了这种分散模型来生成电商广告图片。技术的更新速度总是惊人的,未来有可能还会出现新的模型来取代它。
主持人:市场上关注到扩散模型也有一定的缺点,如去噪过程当中对时间和内存的消耗量非常大。这是否也会影响大家后续对它的使用?
方汉:任何一个技术出现之后,它的优化速度都是非常快的。在早期扩散模型需要的内存至少是8G以上,最新优化的速度已经能在1G以下的苹果手机上去复现。对于扩散模型来说,生成速度并非是最大痛点,可控性才是。
比如判断一幅画是选择用AI绘制的还是人工绘制,最重要是我们的画技如何,这其实是一个可控性的问题。这类问题都在被迅速解决,在斯坦福的研究者提出之后,图像生成的可控性已经得到了极大提高。一旦技术取得突破之后,针对这门技术的优化以及各种改进,在开源模式下迭代速度是非常快的。
文本生成图像在不到六个月的时间内,已经飞速迭代了诸多功能并弥补了很多特性。目前来说文本生成图像的可能性已经非常强了。上述问题我认为在很短的未来就会全面得到解决。
主持人:如何看待市面上现存在的各种大模型以及它们未来的发展方向?在国内是否会出现大模型之间的商业竞争?
方汉:任何领域都会有商业竞争,这是毋庸置疑的。大模型这个领域,我认为大家首先竞争的是“谁是第一”或者“谁是最好的通用大模型”,预计会有2-3家最终胜出。在通用大模型之外,针对各个行业的垂直大模型、针对特定场景的应用大模型也会长期存在。针对特定场景做优化的玩家也会非常多。
大模型本身在不断的迭代。从文本大模型到多模态大模型,我认为这个竞争会是一个长期持续的过程。先发者将会凭借他们的先发优势在商业上获得很大的成功。后发者可能要付出更多的努力,在算法层做更多的优化,能够超过先行者的技术指标才能获得商业上的成功。或是在大模型尚未涉足的垂直行业进行自己的深耕细作,也会获得自己的商业回报。总而言之,这个竞争是长期而激烈的过程,谁也不能躺在功劳簿上一劳永逸。
主持人:现在研发大模型的主要是一些巨头,体量小的公司在大模型研发层面,该如何扬长避短?
方汉:首先体量小的公司不要盲目求大求全,一定是要针对自己最熟悉的行业和业务领域去做大模型定制或者二次开发;第二,现在开源的大模型非常多,基于开源的大模型做二次开发也是一个非常好的切入途径;第三,对于中小企业,可以把大模型的应用放到自己的工作重心中去,这样在商业上可以获得更好的收益。获益之后,也可以反哺在预训练大模型方面的工作。总而言之是要杜绝盲目,脚踏实地,务实的去看待这次竞争。
主持人:从长远角度来看,未来有哪些可取的降本增效的方式?
方汉:我认为AIGC或者通用人工智能是人类进化史上发明出来的一个最新也是最重要的工具。利用好这些工具来提升自己的能力和创造力,去实现更多更大的价值,这点是非常值得期待的。
· END ·