查看原文
其他

专访|中科深智成维忠:一家数字人公司,为什么要做大模型?

王俞现 元界
2024-09-05

撰文|王俞现(元界主理人)


5月10日下午,中科深智在北京举办战略发布会,正式宣布大语言模型『GenSense数智姜尚』上线,这是一款专为企业私有化部署和数字人设计的大语言模型,也是国内商用大模型在轻量化领域内的首次尝试。



中科深智现场演示了『GenSense数智姜尚』在数学运算、逻辑推理、日常对话等领域的互动表现。『GenSense数智姜尚』将填补以往数字人只能“依照”指令进行反馈、而无“自主”互动能力的缺陷,成为虚拟人真正意义上的“大脑”。


@元界(IP:Metabod)了解到,作为生成式AI虚拟人和3D AIGC技术领导者,中科深智在2022年1月发布自主研发的跨多模态深度学习算法——CLAP算法,并在当年3月推出生成式虚拟人实时动作表情驱动业务中台Motionverse。


前者通过持续的不同模态数据的关联和交叉训练,获得了优异的基于语音语义实时生成动作和表情能力,再以自研的重定向算法介导,实现对虚拟人的驱动,完成生成式AI虚拟人的技术闭环。


后者可使音频源、文本源、传感器、语义、脚本等多模态输入方式,通过生成式AI技术方案,实现虚拟人的身体动作、面部表情以及口型的实时驱动,提供SDK和管理后台,解决产品和终端的虚拟人驱动问题。


而基于CLAP算法,『GenSense数智姜尚』能够将虚拟人的“大脑”和形体表现,进一步有机融合,在对外界互动时能做出实时反馈,并直接驱动虚拟人进行生动地表达,复现了一个有“智力”、有良好表现力和表达能力的3D虚拟人。


现场中科深智发布了200亿和20亿两种参数量的大模型,并重点将20亿参数量大模型与ChatGPT及其它知名大厂的大模型进行测试。测试显示,参数量缩小后,效果基本满足企业需要。甚至只需要一块NVIDIA GeForce RTX 3090显卡,系统便能良好运行。


发布『GenSense数智姜尚』后,中科深智实现了包括自有大模型、自主核心算法、系列3D AIGC产品、生成式AI虚拟人解决方案的“全家桶”级服务能力。


发布会前,@元界(IP:Metabod)专访中科深智创始人兼总经理成维忠,此为主要涉及大模型的内容:


元界:公司目前在国内外处于什么发展水平?


成维忠:在生成式AI虚拟人领域,我们肯定处于国内第一阵营。我不知道能不能讲,只有我们一家在做,但国内在做的人肯定极少,我们遥遥领先。放在全球来看,我们也应该是第一阵营这个水平。


元界:你曾表示,ChatGPT突破的大语言模型是大厂必定涉足的战场,中科深智将坚定作为一家创业公司应避其锋芒的自身站位。这次发布大语言模型,是回心转意吗?为什么会有这种转变?


成维忠:所有的大厂要不去优先搞这件事儿,就等于在未来AGI(通用人工智能)这个大盘子中没有立足之地,所以他们必须要搞。政府肯定也会鼓励大厂去搞。搞不定的话,在下一代的国家竞争中,可能就会比较被动。基于这样的认知,我认为大模型就是大厂的“圣杯”。


我们已经看到foundation就是基础的大语言模型,它要投入的资源非常多,对团队要求也非常大。在这种情况下,我们要不要去做,有没有条件去做,为什么去做,从去年12月开始,在过去几个月中,我们团队一直在讨论,一直有纠结。


去年12月ChatGPT在大众层面还没有这么火,但在人工智能圈子里已经被广为讨论。刚开始,我们觉得没条件做,也没必要做,但是后来这个想法发生了改变,这里是两个问题或者说原因:


一是,我们后来发现,开放出来的资源API接口,我们要基于这个去做跨模态训练,要升级原有算法,但如果没有源代码,我们还训练不了。这个事让我觉得很痛苦。


二是,我们是做B端应用的,我们很多客户讲,他们不愿意用foundation的大模型,涉及数据安全问题,还有推理算法投入问题。他们希望用一个相对比较高效的可以私有化部署的甚至定制的模型。在这种情况下,我们就开始问自己,我们有没有能力去做这件事。


在过去两年中,一个比较好的地方就是,我们基于transformer模型做了很多工作,我们去做一个大模型训练的工程,对我们来说相对比较简单。在数据的获取和算力的调配上,我们也有一些方法,像为今天发布大模型,我们临时调剂了2000张左右的A100显卡。这非常不容易,但基于之前一些非常好的合作关系,这个问题就解决了。我们认为自己有条件做这个工作。


元界:2022年1月你们发布了CLAP大模型动作与表情生成算法,3月又发布了虚拟人业务中台Motionverse,公司当时就有先见之明。


成维忠:CLAP模型是我们自研发的一个预训练模型。现在比较火的mid journey、stability fusion,当时还没出来。谷歌也是在2021年才提出后来风靡全球的CLIP(深度学习)算法,这是文生图的一个核心算法。


CLAP模型,是用自然语言输入指令,虚拟人就能在多模态大模型的作用下生成连贯的动作与表情。我们虽借鉴了CLIP,但跟它还不太一样,底层逻辑和技术难度,要更复杂。


当时我们这个算法还比较粗,但我们算是这个领域第一家。因为也没有做完全的调查,如果还有,至少我们肯定是第一批的少数几家公司之一。因为具体多少算大模型,这个概念比较模糊,去年的时候,我们的参数量只有亿1.5亿左右。


跟大语言模型比起来,这是非常小的这个参数量,但借鉴大模型发展史,就当时阶段,我们讲CLAP算法是一个大模型的动作和表情生成算法,这个没有毛病。


有两个东西,对我们来说做算法很关键:第一,对语义的理解就跟现在做文生图是一样的。对我们来说,它不单单是语意的理解,也包括对语速的理解,就是我们的声音是有节奏的。基于此,我们把这个事情看的更加清楚。


我们发现,在这个语速和文本理解上面,文本的理解、语义的理解更重要。所以从2021年开始,我们在算法往前走的时候,越来越把语意的理解作为我们的重心。


CLAP算法发布以后,我们在3月发布了虚拟人业务中台Motionverse,把我们底层的各种各样的算法和一些资源,整合起来放到业务中台,一方面自己在做产品的时候比较方便、高效,另外也可以把这些资源比较好地输出给第三方。如果没有这样一个东西,它就是各种零碎的。


通过这一中台,中科深智可以使用音频源、文本源、传感器、语义、脚本等多模态输入方式,通过生成式AI技术方案,实现虚拟人的身体动作、面部表情以及口型的实时驱动,提供SDK和管理后台,解决产品和终端的虚拟人驱动问题。


元界:5月10日,公司发布GenSense数智姜尚大模型,要跟文心一言等对视吗?


成维忠:当然我们跟文心一言等,不是一个直接竞争关系。我依然认为这个是大厂的菜,就是说这是OpenAI跟百度等之间的竞争,他们要去引领一个行业,望着AGI去逼近,我们要解决的其实更多是垂直领域的应用问题。


我们把大语言模型跟我们的训练放在一起,基于新发布的GenSense数智姜尚大模型,我们就形成了基于生成式AI提供全流程、端到端3D虚拟人服务体系,从语言的解析、3D模型的生成,到3D动作、表情的生成,形成端到端的能力。这也是我们新的战略能力。除了适用于虚拟直播、数字员工等成熟场景外,还可以进一步适用于对私有化部署需求更高的金融、医疗、政企等专业领域。


元界:中科深智大模型的主要看点在哪里?


成维忠:我要思考的不是泛化能力,我不可能跟“千模大战”的参与者去拼解析一道题,或比拼画画,这样会把我们公司搞死掉了。我们这个模型不会像其它大厂去买大语言模型的API。我们解决的是什么?


第一,在推理的时候,它一定要轻,只需一块3090显卡即可驱动,比ChatGPT更轻量级


文心一言的推理消耗算力是很高的,很多客户可能受不了。所以明天(10日)我们发布了20亿和200亿两个参数的模型,我们优先发布20亿的。为什么发布20亿呢?使用的成本会低很多,大家可以感受一下一千多亿和20亿之间差异到底有多大。这个状态肯定有差异,但没有大家想象的那么大。在很多场景下,我们觉得够用了。我们希望当把算力控制在一张NVIDIA GeForce RTX 3090显卡时,就可以做到推理。这样的话,做私有化部署就OK,这是第一点。


第二点,我们会基于我们的大模型,在上面做一些工具,很方便用户来做定制。比如对我们的电商客户, 我只关心他们在使用这个业务时,这个大语言模型能不能给他提供比较好的业务支撑。


第三点,因为我们主要的客户是在中国。所以我们把对中文的表达和理解,作为我们一个特别重要的重心,也可以说在这一块我们是不输于国内的这些大厂的大模型的。


我们不少客户做电商,所以我们对于外语和中文之间互译这一块,也会看的很重,就是各种各样的语言的使用方面。当然每个模型都有这方面能力,我们就特殊地去加强他们。


元界:你对潜在两三年的市场走向有什么直观判断?井喷的时间节点会在何时出现?取决于什么?


成维忠:对我们来说是一以贯之的,因为我们本身做的就是3D技术,无非就是在渲染输出的时候,是以2D的图形、图像输出,还是3D输出,对公司的底层技术没有任何的影响。


基于这样一个认知,虚拟人到底什么时候会井喷,我觉得今年就会出现一个加速度。曾经有一个VC朋友,今年春季以后跟我说,今年不看虚拟人赛道,只看人工智能。显然他对虚拟人与人工智能的关系,理解有偏差。虚拟人不用人工智能,这个虚拟人将来咋落地?虚拟人本来就是XR+AI,AI的大发展,对虚拟人的落地本身就是一个巨大的助力。VE也抓投资热点,元宇宙火时,大家都做元宇宙。今年AI大热,大家都去做AI。很少有人冷静思考,元宇宙或者虚拟人跟AI之间的关系。


与发布会同步,我们会推一个产品叫虚拟助播。过去做虚拟电商,就是一个虚拟人在那讲,旁边不能有真人。旁边有真人,这个AI就够不着用。真人在讲话的时候,AI听不懂,两者之间无法做交互。今年大模型一出来,这个事情就靠谱了,与AI的多轮对话和实时交互不再是幻想。


我们将把这个作为我们的第一个应用场景,正正经经地让大家看到虚拟人和真人同屏互动,你说这是不是AI对虚拟人的一个推动?中国现在有多少做虚拟直播、电商直播的,对大家来说,只要不贵,用得起来,用一个呗,反正没啥坏处。


类似的例子其实非常多。没场景就无法爆发。如果这样的案例多了,我觉得明年或者后年就会迎来大爆发,一定会井喷。万一没有井喷,不是虚拟人的问题,是大模型出问题了,大家发现大语言模型没有想象的那么牛。当然,现在我觉得这个担忧是多余的。


每个时代都有属意于一个时代的创业家。是创业家用他们的印记,为时代留下生生不息的年轮。


俯仰之间,我们正在迎来一个全新的创业时代。我们坚信,无论元宇宙+,抑或AI+,都将“涌现”生机。


元界正在筹备开辟新栏目『元创家』系列访谈,聚焦新玩家、新势力。敬请关注,访谈沟通:18603851537。


中国元宇宙100人访谈

院士访谈录|潘毅的元宇宙观

定锚者邢杰|中国元宇宙100人

沈阳|元宇宙领域BAT出现的时间判断(上)

高承实:离开人工智能,就没有元宇宙|中国元宇宙100人

院士高徒赵天奇|中国元宇宙100人


继续滑动看下一个
元界
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存