查看原文
其他

产业调研:大模型,人工智能的暴力美学

国君计算机 计算机文艺复兴 2023-06-22

产业调研系列

近期我们邀请了国内头部AI公司的大模型专家进行了分享,核心内容如下:


去年11月份的时候,我们感觉到AI行业会有比较大的发展,因为我们每个自然人都能体会到对话体系带来的活力。但我们再往前追溯,从阿尔法狗开始,整个AI里面的技术迭代是不断的,我们感觉核心技术的演进会带来人类社会的迭代。


现在的AI技术的发展会推动整个人类社会的前进。我举的核心技术的例子还是比较多的。我们在材料模拟和教育研发层面都有投资,包括未来发展的合作伙伴,在近几年内都有相对比较好的协同。



我们看看现在大模型的最典型的应用,可能AIGC是现在大家普遍关注的一个场景。你从左边和右边基本上看不太出来是哪个是全息合成的,哪个是人合成的,有的时候我们认为计算机合成的背景稍微模糊一些,但是现在基本上已经迭代过去了。然后包括AIGC已经开始有商业化的模式在做,这是小红书上的一个虚拟偶像。



去年3月份的时候,我们想象不到对人的模拟可以到如此真实的程度。这里面还是加了一个软件包,我们每个人只要有一个相对性能比较强的电脑,都可以做到自己上传真实数据训练。但是大家可以看到当时人的生成还是有点bug——右边的人手有4个手指,不太容易发现。



接下来我们认为大模型的发展会带来未来整个人工智能行业的百花齐放。我们看到AIGC,尤其是分行业,包括对话,包括音乐,还有就是他和一系列的产业的结合。站在我们角度来讲,这些衍生出来的应用,都跟大模型的迭代相关。


技术的迭代来源于暴力美学(大力出奇迹、量变引起质变)。把算力需求、模型架构和训练数据达到超大规模(大模型、大算力、大数据),但每个环节都和参数收敛有很大关系,一方面是大力出奇迹,另一方面是如何构建模型并优化模型。


我们认为这一切的来源,可能用一个简单点词说,就是暴力美学,最终就是我们把模型的架构做到了超大规模,把算力的需求做到超大规模,训练的数据做到超大规模。那么在堆叠以后会发生一个质变,刚才也有跟大家在讲,就是在模型的整个架构参数超过100亿的时候,会发现整个模型的质量会有所提升,但也并不是说我拿钱堆料就能把这一系列的应用都搞定了。


每个环节里面,我们都认为不管是算力的规划,还有模型的架构,还有就是数据的筹备的模式,都跟模型的参数收敛有很强的关系。在内部交流的时候,我们也大概知道谷歌和OpenAI是最专业的公司,他们在重点在看数据规划的问题。也就是说一个模型设计出来相对来说还比较简单,但是我用什么顺序,用什么样的数据去筹备它、去训练它,才能把参数训练得更好,也是很关键的。


整个来说我们认为在现在阶段,不光需要有资金,技术还有问题,可能另外它还有一些深化的需求。当然也需要对数据的优化,这是我们目前总结到的行业非常流行的模型,它的关注量级,它需要的训练数据,包括它的单次训练效率,给大家做一个展示。


原来对于我们传统AI公司来说,服务传统行业是非常不舒服的。对于传统行业,比如说工业企业数据的采集、标注和训练,然后数据模型的数据训练,包括模型架构、模式、模型的部署,然后我们做模型的迭代,都由一家公司来做。


最佳的方式应该是整个产业链上各个环节,大家都能各司其职的去做。我们认为原来的模式,因为大模型的诞生会变成另外的模式——可以把整个产业链的分工做得更好,有做基础设施的,有做基础模型的,做各种领域的模型,然后有做模型训练的,也有做数据采集和数据标注的。


openAI告诉我们,真正的数据标注和数据选择,还有数据投喂的过程中人的介入是多么的重要。人(包括数据团队)对未来算是一个强硬的助力。


我们感觉到AI产业以后如果有好的分工,可以迎来大航海时代,或者说百花齐放的时代。各种各样的应用不断的衍生,会把整个的人工智能的创业门槛不断的降低,因为有了基础设施的完备的服务。再加上大模型做了以后,我们在大模型上去做一些应用型的创新都会非常非常的容易。


我从去年开始见到一些三五个人,十几个人的团队创业,就是利用美国人 GPT 模型,他们会做一些没有创新、没有创意的事情。刚才我提到了领域里面大模型很重要,但是你要真的训练出来是有难度的。做大模型,我们把它设计出来以后,还有很多软件工程领域里面的技术,附加到大模型的整个生产过程。设计出来以后,我们就要训练它,数据来源怎么办?在训练的过程中你的并行加速是否能实现?然后你能不能保证训练3次,5次以后你的参数就足够收敛?都需要一个很强的基础设施的知识,我这简单总结了几条就不给大家念了。


这里面不仅你要有足够多的GPU的卡,当然还有中间件,还有整个的PM网络的支持,才有可能把你的模型训练出来以后商业化。这一块行业内谈得不多,但是这块对于大模型的生产来说很重要,而且行业内真正具备训练大模型的整体硬件能力的厂家并不多。后续我就简单的跟大家分享一下,就是所谓的大模型,或者所谓的人工智能应用,在现在我们能跟什么样的产业去产生合作。未来有了更好的模型以后,这些合作也会出现不断的飞升。


首先就是我们蛋白质模型的推理。人类发现蛋白质的速度比AI发现的速度慢很多,但你现在跑出来的所有蛋白质里面,可能也就10%到20%真正有意义,可以做药或者可以做完整检测。我们在人工智能下一步的工作是对蛋白质和蛋白质之间的结合,和蛋白质之间的化学反应更关注。另外就是合成生物学,合成生物学也是流行了几年了,到未来有大模型以后,核酸生物学的底盘细胞的筛选,包括基因改造的过程也会不断的加速。


还有很多传统的AI去做的应用。首先就是自动驾驶,自动驾驶现在消耗大量 AI行业的算力。在做自动驾驶的时候是需要 CV模型的,大量的数据和大量的数据标注,然后去做他自己的模型训练。而且我们国内的这些自动驾驶厂商绝大多数都是割裂的,他们每家都在训练自己的自动驾驶模型,过程中会非常非常高的消耗算力和数据。


在智能制造领域里面,有时候我会认为传统行业可能和AI离得比较远,但包括电网,包括传统的制造,甚至于一些医疗行业,在加速他们的生产效率。在医疗领域可能大家也都比较熟悉了,包括三维重建,可以自动生成一些好的跟医疗相关的数据。


Q&A

1. 大模型出现之前,垂域场景里有很多大公司,他们有数据优势,而大模型微调后模型能力强于原先的垂域模型,大模型会带来怎样的业态变化?会颠覆原先的模式还是无法进入这个市场?

我觉得就是刚才我说了一个2. 0 跟1. 0的差异,就能说明白这个问题, 2. 0和1. 0 就并处于一个升级的过程。但是我刚才也讲到了,在垂直问题里面掌握核心数据,它还是能坚持在他这个领域里面不断的这个推陈出新的。但是他如果不和大模型做结合的话,它的数据飞轮效应很难形成。它形成规模效应和飞轮效应以后,垂直领域才能产生一个飞速的商业化的过程,我们认为如果不和大模型结合,它也能活得比较好。


但目前包括我刚才提的那个医疗,包括这个自动驾驶领域,我们都能看到大模型给这两个领域提供的非常非常强的支持。就是数据生成,这个如果没有合成数据生成技术组的时候,在CV的模型训练的时候,同时非常不容易实现这个参数收敛。刚才我们提到的包括自动驾驶,现在在国外的数据采集和数据生成的这个技术已经高于远远在国内了,但是国内又是一个自动驾驶一个非常非常强的一个大市场。在这种情形下,我们可能用大模型生成的数据,未来会不断的去替代这个自动驾驶车辆在道路上行驶,车辆采集的数据,成本层面上我可以跟大家说大概能降到原来的1/ 3。


2. 自动驾驶没有边界,理论上无法被遍历,同时它对于bad case的敏感程度非常高,这种情况下从 1. 0 变成 2. 0,这个行业的商业落地,技术侧的可行性上会不会有一个提升?

我认为大模型会有一个正面的影响。


你刚才问的就是 corner case这个东西,首先你没法遍历,可能也就是会选择用 AIGC 的方式去生成它,否则你的模型参数根本就没法收敛,这个商业闭环是不可实现的。


另外就是我自己觉得,这种传统的垂直领域,如果仅限于一小部分的这种数据,不形成数据飞轮效应,会把它淘汰掉。包括我们过去那种对话机器人,我们都觉得打个电话或者说是在网上去发个消息,他给你回过来的话,你根本就不想看他。


现在有了大模型的这种非常好的问答,可能对整个客户的体验都有提升。当然这个是次要的,关键是你在细分的垂直领域里面,怎么去让它的效率再提高。因为有时候我们认为这大模型的训练可能性还挺高的,但是你做完了,它的推理的成本其实也不低。


我们都能感觉到数据量会越来越大,你数据飞轮效应不形成,行业之间不打通,没有一个大模型不断的去给他投数据的话,在垂直一直是固步自封的状态。


3. 会不会生成/仿真本身也无法遍历所有的Corner case?仿真是否会是一种趋势?

如果在这个角度来说确实是会出现这种情况,但是我们首先认为大模型它会给人这种很新鲜的感觉,他们自己创造了一些数据,总比你去主动的去遍历这些数据要强。因为整个对自动驾驶行业来说,做模型和做采集的这个人是割裂的,他采集完了数据给你以后,你在标注的这个过程当中就卡掉了,真正有用的数据本身就很少。真正有用的数据很少的情况下,成本就会不断往上提升,所以还是要有新的技术去不断的去优化。


4. 大模型和深度学习、强化学习的区别?结合?原理?

原理上变简单了,由于transformer简单的架构(编码器、解码器),大模型在transformer上做卷积神经网络也更简单了,transformer平行的网络很多,纵向的也不少,结合的点位很多,可以理解是一张很大的深度学习网络。


但是相比于原先的深度学习网络是变容易了,因为传统深度学习需要很多数据标注。可以理解深度学习网络很深,大模型网络很宽。


5. 如果单说CV领域,大模型到底会不会给行业带来很大的突破?

我觉得还是看行业应用,我觉得大模型上传出来以后就不分 CV 和 NLP 了,以后可能所有都在大模型上。首先就是进入门槛会变低,因为你直接可以调用大模型作为服务。另外就是因为整个大模型的这个效率可能会运转的非常非常好,会比你单一部署或者离线部署要强很多,边际成本会降很低。


这个是我目前的这个观察,具体的角度,如果您要说人脸识别或者工业质检的话,CV模型是非常重要,优秀的其实是可以不用换的。但是比如说我们检测一个螺丝钉,那和这个人的血液检测我要完全写两个不同的模型,我要完全用两套不同的数据去筹备,它的成本很高。比较有效的其实是有一个 foundation model。


6. Foundation model是会掌握在几个人手里吗?

我们认为大模型谁都可以做,这个没有问题,而且很多没有算力的厂商现在也做出来了,但是模型设计出来以后你怎么商业化,这是一个问题。就是这个大模型未来可能衍生到垂直行业,已经有的方式去调用模型的能力,还是你只做出一个大模型来,我就让大家去调用我的API,这个就选择可能就不一样了。ChatGPT 刚出的时候,我们是可以免费的使用的,现在我可以向人去预售盖章和包月嘛,这个就看他怎么商业化去啊。


其实大模型没有门槛,大模型大家都可以设计,但是大模型参数怎么收敛?你训练花多少钱?这个是这种纯做大模型的公司最重要的,就是模型的设计,因为它只有基础的技术。那你怎么去堆叠这个transformer的模型,怎么去设计它的层数,设计它之间的连接,这些是你设计大模型的这种厂商需要做的。这也就是为什么GPT-3以后就根本就不开源,它模型结构你根本就看不出来。


7. 现在大模型出来会对软件企业的研发投入有什么影响吗?会不会对创业型企业特别不友好?

其实软件企业这个也比较宽泛,它到底是研发软件还是这个做应用型的这种软件,其实差异还是很大的。一起给您一个回复,其实我们可以看到这个 ChatGPT 这个模型,它叫GPT 3. 5,它其实有两个分布,一个test,一个是超级分布。test就是我们前台聊天的那个,但是它这个分支的能力,我个人认为其实比其他分支还要强。也就是说如果我们认为基础代码是软件这个行业去编写的话,那我认为大模型会完全颠覆到现在基础写代码的结构。那么当然我们认为人的创造还是永远是排在第一位的。


那在这种情形下,我自己更认为做应用的企业有更好更新的机会。很多很传统的代码已经固化的这种软件企业,对它的研发投入的影响还是会比较强的。


8. 做数据标注的企业客户需求是否会发生变化?

我很看好数据标注企业未来的发展趋势。现状是这样的,我已经看到有一些做数据标注的企业开始用人工智能的技术去做一些基础的数据标注。也就是说其实最基本的那个数据标注的人有可能会被淘汰掉,但是它还有海量的存量市场。其实大模型是无监督学习的,就是大模型我投喂的数据其实是可以不标注的,但是后面这个人还是比较重要。


合规声明:本文节选自国君计算机人工智能论坛纪要,属于公开资料,如需全文PDF请后台留言。


  - end -  


欢迎加入行业交流群!

欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的行业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。


AI相关报告

ChatGPT研究框架(80页PPT)

产业调研:一线专家眼中的ChatGPT

产业调研:医疗认知智能技术进展

海外ChatGPT公司有哪些已经落地的商业模式(深度)

GPT-4 即将发布,带来什么产业边际变化?

百度文心一言发布会详细纪要

产业调研:百度文心一言与GPT-4的差距有多大?

居然是微软打开了金山办公的市值空间

英伟达GTC大会万字纪要

海外AI大模型梳理:技术革命的本源

国内AI大模型梳理:三英战吕布



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存