查看原文
其他

商汤大模型为何惊艳?

国君计算机 计算机文艺复兴 2023-06-22


产业调研系列


核心要点

1.参数和数据要结合起来一起看,才能真正代表人工智能的能力,二者的乘积是计算量。商汤目前有27000块GPU在跑,输出5000P的总算力,500P的国产化算力,是亚洲目前为止最大的计算中心之一。可以同步支持20个千亿规模参数量的模型并行计算。同时,商汤把大模型能力做成服务来服务客户,包括自动化标注,自动化标注的能力大概是提升为手动标注的400倍-500倍。今年的目标是支撑万亿参数的训练,能够支持5000亿稠密参数的训练。还可以有增量训练,把增量训练的成本降低90%,也就是原来的1/10。


2.商汤大模型定名为“日日新”,模型体系中融合了商汤自然语言大模型、文生图大模型、感知类大模型,模型的增量服务。


3.自然语言大模型定名为“商量”,可以进行多轮互动交互、通过对复杂的PDF的学习回答问题、根据人类提示生成故事等。同时具有AI代码助手,可以实现代码的补全、扩写、翻译、重构、修正、注释、复杂度分析等功能。代码助手可以把代码编写效率提升62%,humaneval测试集一次通过率40.2%。医疗领域,可以根据患者的病情判断其病因。


4.生成式AI应用包括秒画、如影、琼宇、格物等。秒画可以根据指令生成图片,并且可以通过输入其他图片的方式对模型进行训练,使得输出的图片更符合要求。如影只需要5分钟手机录制的视频,就可以拥有一个专属的数字人,帮助企业和个人快速高效的制作高质量的视频内容。琼宇能够快速进行城市级数字孪生模型的生成,扫描效率提升了400%,降低了原来成本的95%左右。格物能实时生成高质量的物体模型。


5.要想得到优秀的大模型离不开数据。商汤OmniObject3D数据集包含190个类别,超过6000个物体,有大量的真实物体的扫描的数据,支持神经渲染、表面重建、3D的生成、点云识别等任务。商汤明眸提供自动数据标注的服务,有12个模型,里面包括通用模型,还有一些专业领域的专业模型。基于商汤大模型,它可以自动进行数据标注,这一服务可以通过API接口实现调用。


附发布会全文纪要


徐立博士演讲

在人工智能的大模型时代,其实很多人说到我们讨论各种各样的大模型,通常会以大模型的参数量来区分模型,达到了一定的水平。但实际上人工智能的模型,我觉得我们应该考量的是参数加上它训练的数据。参数和数据要结合起来一起看,才能真正代表人工智能的能力。



那么两个东西的乘积,其实我们可以说我们认为的计算量,这就是新时代我们想说算法数据和算力的新公式,就是一个乘法的公式。今天我们来衡量一个模型的时候,我想不能够简单的来看这个模型的参数量,而在有限的计算量的前提下来分配资源给参数或者是它训练的数据,因为你总的计算量有限,我们也在之后可以看到,其实大模型以及它的数据未来对于计算量的要求是爆发式的。那么今天的计算量我们还强调的是GPU的计算量以及它的运行效率问题,就是说一大段是上面的软件系统,就给大家带来一个高并发效率的一个基础设施。



我们首先来看参数量,找到神经网络——今天的主角,我们可以看到首先过往10年它是一个最好的算法,每两年一个数量级的要求在往上翻升,其实过去我们也看到了参数量几乎是每年翻10倍的这样一个角度在往上提升。



最近我们也看到过第一次能够到达数千亿甚至上万亿的参数量。但是如果说我们人类作为高等生物,大家觉得我们比其他生物聪明的地方在哪里?可能就是我们人类的神经网络的连接个数要比其他的生物多,那么大概是在150万亿这样一个数量级。



那么从这个角度上来看,那么现在的这些我们称之为ANN叫人工神经网络的这样一个计算机系统,其实都还是小弟弟。但是我们肯定会不停的去提升我们现在的人工神经网络,这肯定是一个研究的方向。其次,很多人也会说,会不会出现超级智能,如果参数量一致的时候。几年前就有人说我们碳基生物可能是硅基生物的引导程序,那么且不论这个过程当中会发生什么,但是至少在今天我们看到的是随着参数量的变大,随着技术的迭代,我们看到更大的变化在带着我们参数量往上走。



那么我们再来看一个数据量,那么GPT-3的公开数据大概是走了大概5000亿个单词。可以这么理解,在人的一生当中,如果说一直在听单词的话,可以听多少呢?10亿-20亿个词汇。所以已经可以看到今天我们这样说人工神经网络能够触及或者看到的知识量就远远大于一个人一生当中所能听到的单词数,那么最大的神经网络在今天训练了多少数据呢?训练了2万亿。这个时候可能大家没有概念。那么给出一个参考数,据统计,人类的高质量的语言的词汇总数大约在9万亿左右,一个竞争区间就发生作用了。那么最大的网络已经训练了2万亿的数据,那也就是随着倍数往上走,很快就会面临着高质量的语料被消化完的这么一个局面。


那么我们来看人类是怎么学习的呢?很显然我们人类其实是视觉动物,人类的80%的信息是通过眼睛来获得的。刚才我们讲到的神经元以及我们的神经网络连接的话,人类的脑子的两个连接,处理视觉和处理语言的连接个数的比例是10:1,也就是我们虽然有150万亿的参数,这么大参数里面大部分是处理视觉,而且我们肯定是先进化出来视觉后来才定义语言。语言是我们祖先发明的对这个世界的一种压缩的表达,所以我们通过语言能够更快的了解这个世界,但是一定会有更多的信息从视觉当中获得。



举例子,右边这张图我们要把它转化成为语言,可能得写成大量的文字,而且要把它写清楚写成大段。其实可以看到即使是今天用人工智能来解析它,可以进行分割,比如说把路啊,街啊,把他们分开,然后标注。每一个框都能够看到人工标注的框加位置,然后还有一些其他的我们称之为图像的人为解释注释,这种就是我们商汤一直致力于用大的通用的模型给所有的原来非结构化的数据变成结构化。而且这个结构化的过程我们也加入了很多的元素,因为我们很多的标注原来是其实通过人的反馈而来的,所以已经相当在过往积累了大量有人的反馈的视觉类的信息,这类信息如果只是作为输入到我们的更大的网络当中,形成多模块的输入的话,可能会带来一个完全不一样的输入基础。



那么算上这两个东西的乘积,其实如果未来要讨论大模型,大家希望讨论的是它的计算量,这才是他的能力。计算量是什么?就是横轴是我们的处理的数据量,纵轴是模型的参数,而他们的乘积也就是它所占领的面积,才是他的能力的呈现。那么今天大家甚至会发现,当计算量有限的情况下,可能要分配更多的计算资源给数据,而不见得是完全给参数,因为可能网络还是在欠训练。怎么样去做这样的一件事情,其实是后面算法设计的要素。所以我们说新时代的三要素其实是进行了一些转化,那么我们看越是右上角越是能力强。



那么我们来看看传说的一些网络到底达到什么程度,或者我们未来有可能会面临的更大的体量的网络的能力,越是左下角肯定是能力越弱,越是右上角通过我们能力越强,那么在这样的很强大的一些通用网络的能力之下,给我们带来的是我们称之为可能的通用人工智能的一些路径。那么当前业界其实有大量的对于基础算力和基础设施的需求,也可以看到刚才的面积越来越大的话,技术上运行效率要求也是非常高的。



我们今天所在的商汤临港大装置,也是带着大家兜了一圈。目前来说有27000块的GPU在跑,输出5000P的总算力,500P的国产化算力,是亚洲目前为止最大的计算中心之一。那么同步可以支持多少?可以支持20个千亿规模参数量的模型,以千卡并行来往前走。那么同时我们会提供,比如说我们把我们的大模型能力做成服务来服务我们的客户,包括自动化标注,我们的自动化标注的能力大概是提升为手动标准的400倍-500倍。


然后是大模型的推理部署,大模型其实有个很重的成本是什么?是部署成本。我们推理的效率已经提升了100%以上,那么大模型的并行训练,今天很多人讲说了几千亿参数。但是我可以说如果连接4000块卡训练稠密模型,最佳的配置是在5000亿参数。是因为我们有大装置有实验才敢讲这句话。那么我们今年的目标是支撑万亿参数的训练,至少从我们角度来说,我们能够支持稠密5000亿参数的训练,然后我们还可以有增量训练,我们把模型放到平台上,能够做大量的增量训练,并且把增量训练的成本降低90%,也就是原来的1/10。同时我们会开放我们的模型,模型超市、模型工具以及我们的开发者工具,使得大大提升我们开发的质量和效率。



我们在这个行业里面深耕了很多年,其实我们的大模型是从2019年开始做,后面我们的首席科学家会再次给大家仔细介绍我们的大模型。今天我想讲的是我们的大模型体系,我们会做一个这样的发布推出我们的大模型体系,名字叫做日日新,为什么叫日日新呢?因为我们叫商汤,汤之盘铭曰:“苟日新,日日新,又日新。”就是商汤有个盘,上面说苟日新,日日新,又日新。叫苟日新不太好听。日日新的含义是说每天都要更新,并且新了还要再新,非常像说大模型,你看大模型是以周为单位吸收大量的token数据,是以100b的这样token数据来吸收,那么在这个过程当中,它的迭代其实就是日日都在更新,并且说他的能力都在日日增强,那么跟我们同学去讲说我们这个叫日日新,同学可能没读过《大学》,这个是《大学》里的,大家说这东西听上去像是个超市的名字,也行,就是日日新的超市。



这个超市的意思就是说我们能够为大家提供一个大模型的超市,并且能够把整个的产业链条提供了。那么今天我们的日日新的最新的模型体系,这上面融合了我们自然语言的大模型,文生图的大模型,感知类的大模型,模型的增量服务。那么后面我们会逐个再去给大家介绍我们的日日新的模型和体系。



那么以此为基础,我们非常欢迎我们合作伙伴能够接入到我们的大模型体系,去一起迭代我们下一个阶段的大模式。


那么我们来看一下各部门的一些产品。首先自然语言大模型大家可能都会有一个说法,我们要有一个千亿自然语言大模型,那么我们商汤自研的自然语言大模型叫做Sensechat。我们认为自然语言大模型的能力就是在于,你在跟他的互动之间才挖掘出他解决问题的方法,他不是一个单纯的问答,他是跟多人互动,所以我们的slogan就是“商量商量,都能解决”。他不能一次对,得慢慢的跟他商量。



我们自研的大模型的一些特点,包括逻辑和强度的长文本的一些理解,其实某种程度上反映在商量之间,你需要跟他多轮的互动,才能够真正挖掘出来他背后的逻辑以及他它能够带来的解决问题的能力,并且同时我们还带有知识更新的模块,能使得它能够更加明确。



那么话不多说,我们来看一看我们跟商量的对话,这里我们有请我们的商量的负责人王立伟教授上台来给大家讲一讲商量。


大家下午好,我是商汤语言大模型的负责人,我叫王立伟。今天非常荣幸,也非常激动,可以在这里跟大家介绍一下我们的语言大模型SenseChat。我们给我们的语言大模型起了一个非常接地气的名字叫做商量。因为我们希望凡事大家都能和我们的商量,商量商量都能解决。我们一起来看一看,商量能够干什么。那么今天是我们自然语言的大模型的发布,我们先来用我们的商量,帮我们的语言大模型写一段广告词。



这是很简单的一个问答,他说当语言成为你的优势,世界将为你敞开大门。写的很大气,意思就是会说话就有饭吃。这里面跟商量没什么关系,我们就说如果我们这个语言模型叫商量,这个广告词应该怎么写?看看这个标语有没有什么变化。



他也比较直接,就叫与商量携手,让语言成为优势,开启无限可能。那么我决定用这样一句广告slogan。


今天我们有在场很多的合作伙伴嘉宾,我们邀请了这么多客户和合作伙伴,那么我们能不能用来写一份邀请函,也使得邀请函用上这句标语,然后给大家发出这样的邀请函,看看行不行。


实际上这些都是真实场景,我们在用的时候它不是一次性的问答,它都需要来不停的去有一些输入,使得说它能够逐步的找到一些很好的场景的内容。



好了,它形成了一个标准的模板,这里面很有意思的几个点,我们看把客户和合作伙伴写在了title上面,然后他提了这个叫新品发布会,我们叫tech day,但因为没有输入,他看到我们上面的对话认为是个产品发布会,这里也讲了商量携手,后面把这句slogan写上了,里面也有标准的时间地点,然后后面有一个共同成长等等一系列的没有填完。


那么我们能不能要求这个模型帮我们填上,4月10号下午3点这个时间,那么把地点也填上,地点就在商汤临港AI大装置,对,最后我看这个公司的名字也没有写,是不是也能写上?商汤临港AI大装置有发现者对吧?看提示词写的是地点以及发送者是商汤临港大装置,这个看他是不是理解前后文讲的是同一件事情,它能够填到同样的位置上。



我们的文本出现的结果大家看一下,首先时间地点都填上了,发信者也填上了,有意思的是他把第一句话也帮我们改的是:荣幸地邀请您参加商汤临港AI大装置的新产品发布会。他把原来讲的参加我们直接替换成商汤临港AI大装置,实际这就是真实当中交互的点,就是你通过不停的去给他新的输入,他能理解说它背后的产品含义。


好了,相信各位贵宾已经收到了这样一份邀请函,我们再来看看一些新的应用,到时候嘉宾都可以尝试我们新的应用,比如说立伟在家里要给小朋友讲故事,有的时候会有一些创作故事的瓶颈,那么我们能不能用它来创作故事呢?比如说我们接一段prompt进去,看看能不能来创作一段儿童故事,你一句我一句来交替创作。比如我们先讲说小花是一只小猫咪,这是一个标准儿童故事的开始。


他有猫咪他就马上联想到吃鱼,并且他要去钓鱼还钓不到,可能有点弱的小猫咪,然后妈妈要告诉他说钓鱼要有耐心,不能急于求成。


这样我们接下来就交给我们的同事,你们继续创作这个故事,我们再来看看,我们商量的其他的功能,在很多的层面上,我们会面临着比如说我们需要解决一些财务的专业知识,我们要解决法务的专业知识,我们要解决金融行业的专业知识,我们需要引擎有对长文本的理解,并且把它扮演成这个方向上的专家,阅读专业的文本,我们求助于我们商量连接的完整文件。


我们点开这个框,上传一下我们的PDF,这里我们选一个专利法法务,那么这个专利法是20年发布的专利法。我们往下拖一拖,让大家看一看这个专利法大概有一些有多长。



它是一个24页82个条规的这么一个专利法条,如果大家都要看完,给出专业的这个问答是比较难的,那么比如说我们提一个问题,比如说我们大家关心的专利申请后是不是就有了专利权,我们的技术团队非常的关心,因为我们有了专利权之后就能够拿到专利申请的奖金。


所以大家都特别关注到底什么时候有。看看我们的商量去引擎,他直接告诉大家不是的,因为根据法条的第39条和40条的规定,巴拉巴拉一大堆,最后总结一下说专利申请后还需要经过国家知识产权局的审查作出授权,决定登记公告后才有专利权。你来看第39条和40条这两条,就是一个是发明专利的申请,一个是用新型的外观专利的申请。


如果你光看文字,其实我们其实也搞不太明白到底是不是,但是它可以通过对这些文件的抽象来给出大家一个相对我们普通人来说比较有理解力的一些答案。那么这是一个20年发布的,其实听我们的专利同事说,每年的专利有些规则都会更新,我们来看看今年23年有没有什么更新,说比如说我们问关于发明专利的申请周期,今年的规定有没有一些新的变化?



其实不在这么一个文档的知识库里面,它需要跟一些知识更新的模块进行连接。我们来看看他是怎么回答的,他的回答说也是有的。他知道今年是2023年,国家知识产权局做了一些压缩专利审查周期到16个月,今后的发明专利申请最快在两年之内都获得收益,这可能是一个非常好的变化。


那么我们也来看模型融合的新的知识,并且能够非常实用地结合了很多我们上传的长文本内容分析。


我们再切换到刚才的故事编辑,来看一下我们这个故事。首先讲我们是一只猫,然后他就是想钓鱼,他钓不到鱼,所以我们顺着他讲我们去河边钓鱼,然后他钓鱼他还不消停,又看螃蟹去了,但是后来妈妈非常不开心,就要教育小花,只有专注才能获得成功等等。



本来这个故事可能到这结束了,我们又继续说说他其实还是玩了,又发现了一只鸟,然后他就又要去抓鸟了,抓鸟了之后这个故事还得把他拉回来,妈妈更加不开心了,说我今天钓鱼,你一会儿抓螃蟹一会儿抓鸟。我们收了一下,说小花听了还是很后悔,后悔之后认识到错误,那么他最后专心致志一致就真的钓到了大鱼,也很高兴,然后就一心一意。故事编完了。



这故事最后总结叫小花钓鱼记,然后把这个事情也去总结了一下,大家可以看到我们可以引导他,他本来想要结尾的可以带来一些新的提示词,它故事就越延伸越大,越延伸越远,你可以控制这个故事的内容,那么这样的话其实正儿八经给大家一个共同创作的空间人写的词非常的少。


我们再来看看商量其他的应用,一些开放域的应用,我们把商量接入到了编程代码当中,能不能开启我们的编程性体验,我们邀请我们的程序员张涛来给我们介绍一下。我们来看一看我们的题目是商量接入程序。



大家都常用的vs code的这样的一个IDE,我们几乎所有的程序员都会做一些IDE的插件,我们也接入了商量,那来我们来打开一个新的文件。


先演示一下一些简单的内容,我们平时我们要做小学数学题,小孩也经常遇到,比如说我这里能不能让他来帮我们写一个计算两个数的最大公约数。可以看到说我们写代码的过程其实就是自然语言的输入过程,还得接受中文来写代码。他直接就开始来写的,大家如果能读懂这个代码的话,它其实是一个辗转相除法,就是递归的辗转相除,来表达最大公约数。



我们可以继续问问题,能不能来求两个数是否互质。


我们代码来直接生成两个数是否互质,我们最后简单的来调用一下,看看这个函数能不能正儿八经去跑通。


原来我们写代码大部分是在聚焦在代码写的本身,现在聚焦的是怎么样去跟他互动,并且怎么样去debug,其实 debug的过程也可以用我们的引擎,后面大家也可以看到,现在用户输入两个数判断其是否互质,如果是就打印互质。否就打印非互质,其实我们可以用中文和英文同时来写这样的一个problem,就是提示词,都没问题,然后他就直接比较,调用这个数,有意思的是说你让他打印互质和非互质,他就result里面写的是中文,但是因为训练的大部分的程序是英文,所以它输入是英文,比较有意思,没关系。



我们来跑一跑看看能不能跑通。它能输出第一个数,你随便输一个大一点的数,再输一个数,这两个是不是互质,人类很难区分是不是互质,他告诉你是互质,你也不知道对不对。两个偶数,你再输入一个大一点的偶数,这个应该是不互质。好的不互质,我们权且认为它对了。


这就是一个几乎没有修改的这么一个自动的过程,我们来看一个实际当中用的例子,我们通常会去调用,比如说我们公司自己开发的接口,比如说我们要解决一个手写OCR,大家很多手写票据对吧?手写这个字我们想要做识别,怎么样去打造一整套的体系,来调动这样的一个接口,这个接口有它的调动文档怎么来做的,有一些什么事情。



我们来新起一个项目,就让我们的这个终端去调用我们的自己的接口,然后来完成一个手写OCR的识别的内容。


正好开始一个项目,我们同时切回去。右边就是他现在在操作的界面,大家也可以关注他写代码,因为不是一时半会儿写完的,所以我们来讲一讲,我们认为商量接入了自然语言编程之后,就会改变原来的二八定律,20%的代码抽象的公共库,大家都知道是80%的东西都是人干的,所有的代码读一下能做的事情80%。但是到未来80%的东西是机器生成延伸出来的,20%是通过提示词读过来的。这里面最有意思的是什么?


对程序员来说最重要的是如果你对于一个行业的程序来经过微调之后,他是帮助程序员共享了他们的经验,也就是很多情况下你用的这套模式,你就掌握了AI的人员来调动AI程序的经验。对于这一个公司来说是非常重要的,如果用我们公司的所有的库整个跑一遍这么一个模型的话,那么公司新来的员工立马享受到了原来的原员工的知识,并且能够加大开发能力。我们在测试范围之内,我发现员工在用了这套平台之后,上载的代码量效率提升了62%,而不是说他们干了很多无用的事,就是机器真的帮你提升了效率,并且在工作当中实质上提升了效率。


那么我们在测试集上,一遍过的准确率是40.2%,这个准确率是目前来说大家可用到的比例最高,比Copilot高,那么当然现在GPT4出来了,GPT4的编程能力也很高,后面又到更高,那未来Copilot再接入GPT-4,那么它可能还有提升,但是我想的是随着我们的大模型的能力的迭代和提升,随着我们接入更多行业场景当中的这样的一些代码,它对于企业级用户的用处是非常大的,因为大家谁都不会想到把自己企业里面代码库共享到外面去,但是我们可以做增量的训练。



我们的能力有哪些?代码的补全、扩写、翻译、重构、修正、注释,还有复杂度分析,这个很重要,因为有时候代码的时空复杂度其实是在真正的很多的情况下是制约我们代码跑起来的一个很核心的原因,包括测试用例,我们有很多东西写测试用例写的不完整的,写到了一些边缘的corner case都没写到,但是这个测试用例不是很完整。


那么在这样的一个情况下,我们还支持多语言的中英文的编程,我们在等一下都可以去试,大家如果有想要写的代码程序,等下都能够用我们的这套系统完整地去完成。


我们往下看看,那么接入自然语言,我们的新的想法接入新的场景,比如说接入医疗场景,医疗场景又完全不一样,刚才说开放一个问答编故事,大家可以敞开的聊。而医疗非常的严谨谨慎,做任何的事情都只能是经过千问百问之后才能给出答案,我们来试试看。



我们跟医疗的大语言模型对话的过程。我们来切一下,换上到了我们的医疗的板块,我们来问一个比较常见有意思的病,大家熬夜熬得很辛苦,有时候熬夜眼睛会熬黄了,然后问问具体是什么原因。


最近加班很辛苦,植入了一个加班的场景,主要是眼睛黄了,跟加班没关系。



你看他没有直接回答,他会提问,他会说有没有其他的不适,他其实医疗上面严谨度就是这样子。说眼睛没有不舒服,但是有点黄,因为这是一个典型的症状。然后他就说但他一直没有去做判断,其实医生这时候早就已经说了,他还会问你这个东西持续多久了?好像有一个月了,肯定不是加班加的。


然后他建议是什么?预约肝功能检查,然后还想提醒你注意休息,以保持健康的生活方式,我觉得这个很重要,其实医疗的大语言就是在引导你的,并且能够给出建议,当然我们的同事还想去看病,就问要去哪个科室看,他就说要去内科或者消化科,当然了他也是考虑也去眼科做一下检查。还是一个比较完整的,所以医疗就两点,第一,它要引导你不停的把你更多的信息问出来。第二,他要你整个完成一个眼科的检查。



我们再来看另外一个案例,还是挂什么科的问题,比如说他也是一直说容易出手汗,我们就问问平时紧张的时候出手汗,这个事情该怎么办。



这个事情很多人都会有,他这个就很严谨,他会问你有没有其他的,是不是还出脚汗,这个相对来说有了这两个就会变得比较的确定,还有说你是一种多汗症,他还会问你有没有吃药,我相信大部分人应该没有,他就说他可以建议用抗汗剂和止汗露,我觉得这个很有意思,他就说多汗症其实会影响大家的生活质量并影响导致社交障碍,所以建议大家试着去就医的把它当成一种病。


老规矩问问应该去看什么科室神经内科或者皮肤科,其实这些正常的患者很难通过症状去了解,但是医疗就比较严谨的对话和引导最后挖掘出来,所以为什么叫商量,得多聊对吧?他不可能一次性给你很好的答案。



我们再来看看一些其他的案例,我们就不逐一打了。这里有一些之前要说的,比如说我体检经常各种指标高,高完之后我也不知道干嘛的,医生老说让我去复查这种东西,现在就说你指标高了,你跟他来互动,这个指标高了,应该去看什么,有什么症状之后,应该建议到什么哪个科去做什么检查。如果大家感兴趣,其实都可以去研究一下这么一个场景应用,非常好玩。


好的,我们切回来,这个场景其实我们已经在新华医院落地了便民服务,如果说自然语言去接入到这种问答的时候,他给出很严谨的道理。如果随着大语言能力的逐步的迭代和演进的话,实际上它能够做的事情更多,随访、健康资讯、互联网问诊、辅助诊疗,我们也会再进一步的推动在新华、正大一附院、嘉会医院、瑞金医院和华西医院等等上线。


好的,理论上应该在刚才就显示完了,我们来给大家介绍一下,打开我们的程序,看看哪些是你写的,哪些是机器写的。我们这个程序按照刚才说的,我们要用一个自己AI开放平台的组合,识别的接口,然后将它的输出的响应绘制为一个结果的图片。第三次提示我让他做一个主函数,然后来驱动上面这两个函数。然后大部分的提示是一些指令性的,以及从文档中给予的一些信息。


你能解释一下哪些是你写的,哪些是机器写的吗?


因为在三步提示之后,我也缓存了完全由 AI返回的文本结果,然后大概修改的部分,一个是我们之前准备了一些资源的路径,比如说像我们的是可以获取的部分。红色的行是改过的,大家可以马上来进行对比,这里比如说input的一些库没有,图片文字不对,然后还有有些过程。好的,改动不大,其实刚才说的一遍过就40%多,其实在提示上很多情况都能做到好用,我们能考一下吗?



刚才因为这个东西是一个文本的识别,所以我把这张照片拍了一下,手写的字,用微信刚刚发给了张涛。这张输入照片,那么我们来在程序里面把输入照片的名字改一改,他就会直接调用我们的在线的接口。



大家看我们商量可以接入很多的垂直的场景,也希望我们能够介入各种客户的垂直场景,当然我们也可以用来赋能原来的我们很多的深层次的平台。


刚才讲的如果我们要做视频类的工具,其实有一系列的平台和工具,我们今天也会讲到怎么把我们的这一些深层次的内容放到大平台上,我们有文生图的,我们叫做秒画;有如影,这个数字人;有琼宇,空间的三d的生成;格物,三d的物体生成。


那么这个一整套是可以帮助大家快速完成视频内容的制作的。



首先来看AI内容创作社区平台秒画,那么首先我们的大模型能够解决什么样的问题,一是快速推理,大家用文本生成图太慢了,高清的图放进去两秒一张。


第二个很重要的就是自制的大模型的上面的细分小模型和logo,因为有很多时候你让它生成一些东西,大模型没见过,它是生成出来的,但是那个模型能力足够强,你就可以在边上相当于搭建一个人的小模型和大模型一起来做推理,而这个推理我们几分钟就完成,然后我们演示一下,楼下大家都可以去试生成的内容,都有机器都可以去玩一下,非常好玩的,20张左右的训练照片就能够完成了,而且全部不要你的编程能力,你只要拖拽就好。


第三,整个生成的社区,除了我们自己的大模型,我们集合了社区当中的上万个这样的模型作为整体,并且对于不同的提示词有不同的模型选择,然后为创作者提供更加完善的工具,未来生态也希望大家能够共建,建的越来越大。


那么最后我们还可以封装的B端API,允许我们的下游客户建立自己的生存社区,这个是非常不一样的。所以如果有任何的客户想要用我们的能力来生成他自己的平台的社区,我们都会给出明显的支持,我们卖的是大装置的算力。好我们来看一看我们的平台。



好的,这就是我们的秒画平台,我们有自己的很多模型,然后还有一些社区模型等等,非常丰富,大家不一样,因为风格不一样,往下翻一翻我们生成的照片,来看一看这些就是创作的照片有不同种类的风格,人物、进化、镜像,然后还有什么带阴影的、光照的、卡通的、未来感。



来我们翻到最上头,我们点开那张照片,最左边那张照片,来我们点一下任何一张照片,上面都会有很多的提示词,要知道要生产这样一张照片,其实不是简单的几句话就能够写完的,是需要一个比较复杂的完整的提示词。



来我们拷贝一下提示词好不好?首先看这个姑娘的光影还挺漂亮的,看上去很逼真,用我们的自然模型把它生成一下,使用模型生成描述词,先选了生成4张照片,什么覆盖率等等,这个都可以填。这里叫法式金发女郎,我们换成中国女人好吧,同样的problem的不变。



我们让他换个衣服好不好?就是不要穿西装了,能不能让他穿汉服?比如说其实生成这样的图片,最核心的就是它的提示词,所以大家可以点开我们的图,拷贝它的提示词,这样就会很有效率。


生产了一批汉服的,我们再升华一下,我们希望生成港风的。比如说身穿现代服装,然后能够展现出来80年代香港明星的风格,看能不能做到。


他生产出来几张感觉有点年代的照片,但是其实也不是那么港风了,怎么办?刚才讲了有可能我这没见过香港的老照片,怎么生产港风?生产不出来。我们来看一下我们的训练平台,很简单,你不用付费编程训练模型,你只要输入模型提示词,比如说港风,给你这个模型起个名字,然后提示80年代港风,然后我们上传照片就好了,20张左右,多一点也行。他就收集了一大堆香港明星的照片,然后开始训练。就这么简单,你啥也不用会,只要会这个就好了,点它就开始了,几分钟的时间,我们先回去看一看这几张照片。


来来看看这个鹦鹉,鹦鹉的关键词叫一只戴着珍珠耳环的鹦鹉,其实我也很佩服,叫维米尔风格,因为维米尔有个画叫戴珍珠耳环的少女,被称为叫北方蒙娜丽莎。所以他们就恶搞了一幅名画,但是大家可以看到说这个光影还有一些还蛮好玩的对吧?你可以恶搞其他,以后我要生成一副一直戴着珍珠耳环的仙人掌。



然后看看后面这张图片,点开这上面写的叫站立、阳光下、人像摄影,2023年,这个也看不出来是2023年上海街头一个中国20岁女人,长得像奥黛丽赫本,然后这里面有意思,你可以看到说柯达的portra 800 105毫米f1的相机,这个镜头是大光圈,所以它在这个点上它生成了光圈效果,而且你可以仔细看头发丝的细丝,它其实对物理世界的理解表现了它对于光线的生成,这个过程很有意思。



好,来再看一张。这个叫什么半瓷半机械人分形盔甲。反正这是一个词,我也很难描述,我也写不出这样的提示词,但是你可以看到这个还是蛮精致的,整体上它又有细节又有景深。



这张我觉得蛮好看的,你看这张写提示词是讲着一个长仙女翅膀的可爱中国女人形象,可以看出还有一个小细节,就是头上的发簪有一个一前一后,所以也是符合物理的景深的效果。



我们刚才训练大概差不多,训练完出来就会选一张照片作为封面,然后点开,看可以用这个模型来生成,也是生成4张照片,大家等会到楼下都可以去玩。



因为这个直接就在下面就会上线了,来我们把这个描述词一模一样的来生成一个看一看。80年代港风给了那么多上涨明星之后,生产出来会怎么样?最后面眉毛有点像80年代的香港明星,对不对,挺好玩的。那么这是我们的文生图,其实可以看到说文生图已经掌握了很多的,不光是生成物理真实的阴影的一些内容,所有我们的PPT里面所有的图片全都是这个平台生成,关键就是要好的技术资源,但是核心的是如果说我们接上整个社区的力量的话,它其实是无限的。


那么接下来我们来看一看我们的数字的生成平台就叫如影,名字为什么叫如影?今年我们就问了我们的商量说你给我起个名字,我就要搞数字人,然后我们想搞云服务。然后就这两个关键字,他就说这个名字就叫如影数字了,我就问他为什么,他说如影随行这个成语就是一个东西跟另外一个东西伴生,所以很符合你的数字,然后如影这两个字感觉很轻巧,看他的名字起得很好,我改名字了就叫如影数字。



那么接下来我们通过一段视频了解一下我们的如影。


大家好,我是一个数字人,你看到的这段视频完全是由AI生成的,我的动作表情以及我说的话都是通过神经网络生产的,我可以在数字世界一直活下去,你也可以。



只需要5分钟手机录制的视频,你就可以拥有一个属于你的数字人。每个在商汤如影平台创作的数字人都经过了严格的可信认证,确保不会被盗用和篡改。商汤如影AI视频平台是一款由商汤科技开发的全栈式AI视频生成平台,旨在帮助企业和个人快速高效的制作高质量的视频内容。平台集成了商汤自研的AI算法,可以结合AI文案生成AI文书。



好的,其实我们很多的直播当中已经看到了很多,有请我们的数字负责人上台。


大家好,我是如影平台的负责人,其实我既然有了劳动力了,那就让我和我的数字人一起来为大家介绍一下。那么我们就先给大家展示一下产品。


那么我们的数字人总的来说,其实有两个特点,第一就是风格多,我们2D 3D的卡通的类似的各个的,大家要的都在搞,想要啥就有啥,这是第一个。第二个工具多,我们可以有文生图的材料资料,我们可以有文本的来接入实时的问答,等等一系列的素材,所以这两个我们的数字人的平台就变得更加的好。那么接下来请丽娜来给大家演示一下我们数字人,来交给丽娜。


我们如影平台一个常见的应用就是为各种各样的产品生成它的营销视频,我们今年也跟故宫联合开发了一款数字文创的产品,所以我们先为这个产品来生成一段介绍视频。



好像刚才一样的,我们先给我们的大模型简单介绍一下,我们跟故宫联合开发文创产品,我们让他来帮我们生成一段视频的文案,看一下我们的方向。大家可以看到我们就生成了一段根据我刚才的描述的一个介绍文案,我们简单的调整一下文案的内容。



我们再为他选择一个模符合它场景的模板,大家可以看到我们模板上的抬头,也是根据我们生成文案自动的转换的。


我为大家带来的是商汤和故宫联合打造的文创,它让你在虚实融合的世界里,置身于这座宏伟的宫殿之中,真实地感受传统文化的震撼。有了我们的大模型,其实我们可以解决很多日常视频创作中的一些痛点,包括不用绞尽脑汁十分磨难,也不用再努力去找素材了。


我们就给大家展示一下如何用我们的大模型更方便的去升级。现在可能很多家长孩子们都会有一些跨国或者一些跨文化交流的场景,比如说我们家孩子跟阿拉伯国家的一个学校去做文化交流,想互相分享一下各自的文化,我就觉得丝绸之路是一个特别好的场景,就是我们来生成一段像丝绸之路的事情。我们让我们大模型帮我们生成一下介绍丝绸之路的一些视频的素材。



好的,大家可以看到左边开始有一段介绍丝绸之路的这样一个文案,同时他还帮我生成了一个通过我这段内容符合这个场景的一个背景的图案,我觉得这个数字人可以更正式一点,然后换一个正式的服装。接着给我的一个相对更像讲故事一样的一个数字人,看一下如影给我们合成的这段视频。我就可以边开始播放。


丝绸之路,是一条连接东西方的古老商路。在这条路上,西方通过贸易和文化交流,促进了不同文明的不断融合,历史上张骞出使心开启了最早的丝绸之路,从此丝绸之路上的商人一次次穿越沙漠和山脉进行风沙往来,中国的丝绸、瓷器、茶叶以及印度的佛教,希腊的哲学等都在这条路上得到充分的传承和发展。


为了国际的交流,我们就给他问问大模型能不能生成一个英文版本的。那模型就帮我生成了一个比较原汁原味的英文版,这个过程中也帮我选择了一个英文的发音人,我们再看看。更加国际版的视频。英文其实我还能尝试说一点,但是如果阿拉伯语的话我真的没办法了,所以我还要让如影来帮我一下用阿拉伯语介绍。大家看到我们的大模型给我们生成了一个阿拉伯语版本的,我们再看一下这个。


大家可以看到,其实我们这里面有非常多丰富的模板,包括很多不同类型的数字,其实我也做了很多通常培训,我们还有很多其他组合的数据,包括3d卡通的一些各种风格的,当然还有我们后面即将亮相的,我的展示到这里,谢谢大家。


阿拉伯语听不懂。当然好处就是确实在各种过程当中可以用它来生成交互式的视频,刚才看到我们背景可以用图画来生成,但是如果背景我们要3D要互动,就要用我们的全部的文物的平台。再看一看我们的3D的生成的平台场景设计可能还原这些空间。



大家都知道,比如说像要构建这样的一个100平方公里的城市场景,人工的建模非常的费时费力,每个建筑物都排队,但有我们的琼宇系统就两天,而且高逼真高还原场景的细节,并且是厘米级别的真实感,光看到这个很多人想说这样的事情其实能不能做到真正的互动,其实我们后面会给大家看到。传统的一些算法,我们能够解决一些本来真实存在的,并且说在这个过程当中可以看到这些楼建筑的分辨率,因为在大屏幕上也不太清楚,我们面板上是非常清晰的一个差别,所有的分辨率包括右下角的这些建筑物。



大家可以看到建筑物本体的排放,最近是我们的办公室的楼,用自己的楼来做演示,可以做到大场景实时的渲染互动。再来看,比如说因为我们的算法的效率高,可以做到多元的数据做融合,并且有超精细化的细节,比如说大家注意这些字,墙面的和数据上的文字都能够做到刻画得很清晰,包括这些花纹,使得大家在刻画这个精细的细节。



有了这些之后我们就可以来做实时的互动,这是一个交互的书院,是一个网红,大家可以看到这是个3D打印比较素,然后你可以看墙面上的反光,注意地板上这种灯光,其实整个如果说纯粹建模的话,也没有这种真实感,还是可以做到可交互,那么我们就可以在这样的一个场景上来进行实时的编辑,这里是一个相机,就相机的位置,所以就可以自动学习这样的运镜,运镜也可以变成算法的一部分,从而来完成整个视频。


我们的琼宇整体涵盖的场景不包含城市及园区的数字孪生,建筑物设计、影视创作,甚至是文旅和电商的一系列的应用场景,让我们来看一个真实的场景。白天和夜间的场景变化。更多的信息面板现在把所有的楼宇的细节搬出,来完成一个整套的场景的叠加。难度是将多元的各种元素能够实时的在场景当中交互和渲染。



好的,刚才大家看到了我们的3D的整个的室外的场景生成,那么在室内的场景物体的生成当中,其实我们也有模型做这个项目。传统中大家如果知道3D的还有几个难点,一,复杂物体的建模往往会牵连到背景;二,有高光的有光泽的这些东西往往建不出来,材质不能分辨清楚。那么我们的这套系统综合的扫描效率提升了400%,降低了原来成本的95%左右,并且有很好的空间效果。




举几个例子,左边这个是一盆花,大家知道花枝其实互相之间有遮挡粘连,如果要建好它的模型是非常困难的。中间是一个光照有光照的这么一个铁壶,这个铁壶有一个年份了,看上去这个光泽不太一样。右边是兵马俑是一个石器石材,但是大家可以看到光从这些就能够感受得到原来的石材的效果。有了这些之后,我们就可以有一些新的行业应用,比如说空间的创意,把东西扫描之后直接放到我们的空间当中,那就可以做家装也好,一些影视作品的嵌入也好。综艺视频或者物件的摆放等等一系列都可以做。大家可以留意物体表面的光线的变化,展现出来的是物体本身的材质。




比如一个场景上都可以切入,负责人做介绍。嵌入我们格物添加的物件来做切入,我们的运镜手法等等,使得我们编辑进入了一种新的大模型的时代。从环境复杂的几何结构,真实光照效果,并可以做到实时。如果想把一个高清的场景全部复原,我们可以在上面重新拍摄影视作品,重新拍摄一些互动的内容都可以在这做。所以原来的一些影视作品里面3D资产都可以用神经渲染方法来做。比如说毛绒物件样板房的,电商平台的,甚至是可以在一些地方直接点到物件来去做交互,室外场景的水里的倒影可以看到真实的情况还原真实万物重生,这个是我们的琼宇和格物平台。


其实右边的视频可能更真实一些,左边其实都放大了,可以看到一些真实的光影的效果,一些变化能够完全的展现在大家面前。



那么结合我们刚才的这些内容平台,其实我们可以把这里全都搬到直播间里,一个直播间里可以有各种各样的AIGC相关的内容产品,比如说我们一个直播间物件,场景都可以是数字化生成的。




“欢迎各位宝宝们进入直播间,关注主播不迷路,上链接。”



有哪些可以换的?人员角色可以换对吧?可以换成真实的人。为让大家更能清晰,可以看到当地人实际上应该是在有不一定的分配。场景的选择。动态的、静态的、3D。


我们共享了很多的这样的一些平台,那么我们在大装置上面,除了我们服务自己的日日新的自研大模型体系之外,其实我们还有7000张的GPU,我们现在对外来服务超过8家的大型客户,用来训练他们超过千亿的规模的大参数的模型。



1956年人工智能这个词和另外一个词叫做粒子对撞机同年被发明出来。很有意思,粒子对撞机今天成为物理学里面最重要的基础设施大装置。那么今天我们把我们AI算力做大装置,也希望说他能够成为人工智能大模型时代最重要的基础设施,赋能我们的行业,推动AGI的发生和到来。那么接下来我们有请我们商汤的首席科学家联合创始人王晓刚博士为客人介绍日日新五大模型。


商汤首席科学家王晓刚演讲


在场景化模型的时代,就诞生了一批AI+场景的应用,每个场景都有自己专属的模型,但是它的研发周期比较长,成本也比较高。那么随着ChatGPT的出现,我们说通用人工智能又掀起了一波新的技术革命。它以更加高效的方式去解决了海量开放式的任务,也带来新的研究范式。那么它是基于一个超大的非常强大的多模态的基模型,是通过人类的反馈还有强化学习去不断去解锁我们的基模型的新的能力。



那么我们说什么是通用人工智能?在现有的AI系统当中,我们可以输入多模态的数据,输出也可以是多个任务,但是这里面的每一个任务都是事先预定好的。那么当我们遇到一个新的任务的时候,我们就要对AI的系统进行重新的设计,采集新的样本,对模型进行重新的训练。



那么在AGI的系统下,我们的输入是提示词,那么它的输出是产生多模态的数据加上自然语言描述的各种任务。那么因为我们并不需要对AGI的基模型进行改动,我们只需要去选择合适的提示词,就能够去覆盖非常广泛的开放式的任务。


这里面就包括了大量的长尾的问题,那么这对于人工智能在更广阔的范围内去大范围的推广有非常重要的意义。我们以自动驾驶的场景为例。比如说给定一幅图,我们想问自动驾驶的车辆是否应该去减速?那么在现有的AI的系统当中,首先我们要进行物体的检测,得到物体的检测框,然后进行文字的识别,做出决策和判断。


那么在这个系统当中, pipeline当中的每一个模块都是事先预定好的任务,但是在通用的人工智能的系统当中,给定一幅图像,那么我们就可以问这个系统任何问题,比如说图标是什么意思,我们应该怎么做?


那么AGI的模型它就可以给出我们答案,而且会给出我他推理的过程,比如说他看到这个路标是有30公里每小时的限速在前方100米,前面有学校有小孩活动,所以我们需要小心,需要把我们的车速去降到30公里每小时以下。



那么我们说在AGI的系统当中,我们去实现的是模型和人之间的互动,我们叫做人机共治。那么在现有的AI系统当中,我们已经实现了数据的飞轮,那么我们从前端、终端获取大量的数据进行标注,去更新我们的模型;这个模型又回馈到前端,去获取更高质量的数据。


那么在AGI的系统当中,那么人和模型之间是怎么互动的?人实际上是让模型的输出更好的去对齐人的意图,那么人就给到这个模型一些更好的引导,包括一些方法论的输出,去帮他去解锁更多的技能。


那么反过来我们说这个模型它就会能够去输出更加高质量的内容。我们就说这个过程叫做智慧的飞轮,那么人机共治它它的出现大大加速了人类社会的科学技术和文化的进步速度。



那么我们说什么是一个好的优秀的大模型?它就好比说一个非常有天赋的运动员,那么作为教练员,人类并不需要一招一式的去演示给他看,我们只需要给输出一些方法论,给他恰当的引导,那么在关键的地方给出一些指引。那么我们的非常有天赋的运动员,他是能够去完成新的动作,自己去创造一些事情,叫做见招拆招,无招胜有招。所以在现实的实践当中,他才能够去不断的去解决新的问题和挑战。


那么也有一些大模型,如果是资质差一点的大模型,他通过自己的刻苦的努力,也能够达到一定的水平,那么这就需要教练员一招一式的去演示给他看,甚至需要有天赋的模型去展示,一招一式的展示给大家看。所以意味着我们去需要去收集更多的训练的数据。那么它也能达到一定的水平,但是可能没有办法给我们带来更多的惊喜。


但是如果我们要是用固定的标准去评测这两个模型的时候,就有可能看不到这样的差异,那么我们怎么去研发一个优秀的大模型,这就需要有我们有非常丰富的场景,非常开放式的任务,去检测一个大模型是否非常优秀。同时我们也需要非常丰富的数据和任务输入给大模型,完成它的训练的过程。



那么商汤我们作为一个人工智能的平台公司,我们有非常多丰富的工业应用的场景,赋能百业,那么恰恰就是体现了我们的强项。


那么我们在过去的5年里,其实一直在深耕我们的大模型这个方向,除了我们刚才提到我们有非常强大的人工智能的基础的设施,商汤也去实现了我们全栈大模型的研发的能力。


那么首先我们针对我们的大模型,我们针对它的底层的训练做了非常多的优化。我们知道这个模型非常大,一张GPU卡是放不下的,那么这里面就需要我们去做各种分布式的训练的优化,包括数据并行和模型并行的优化,显存的优化,混合精度的优化等等。


那么在此基础之上,我们又针对我们的超大模型,还有一系列的这样的优化的技术。这里面就涵盖了我们说模型的设计、模型的训练、模型的优化,还有模型的服务等等。



那么要想得到一个非常高质量的优秀的大模型里离不开数据,需要丰涵盖丰富的场景,高质量的数据。那么我们也跟我们的客户一起在过去的落地的过程当中,定义了很多丰富多样的这样的任务。在最近我们也为我们的社区去贡献了一个最大的基于真实感知重建生成的多模态的数据集叫OmniObject 3D。


那么在这个数据集里面,我们包含了190个类别,超过6000个物体,有大量的真实物体的扫描的数据。这里面的数据的质量也是非常高的,每个物体包含5条的环绕的视频,采用不同的轨迹和光照条件下拍摄的,都是全视角高清的视频。它也支持了多个任务,包括我们说的神经渲染、表面的重建、3D的生成、点云的识别等等。所以刚才给大家展示了这一系列的AIGC的,包括我们的渲染、大场景的重建,还有物体的重建,这些工作它都是离不开这样高质量和数据的支持。


那么在这个数据里面我们也有渲染多视角的图片、实拍的视频、3D的点云、网格还有纹理,这是多模态的数据。那么这个工作今年也被CVPR评选为是best paper,从将近1万篇的投稿当中脱颖而出。



今天我们是发布了我们商汤的日日新大模型,其实在过去的5年里面,实际上我们一直在沿着这个方向去演进。那么在2019年的时候,我们是有了第一个10亿参数级的大模型用于人脸的领域。2022年我们有了320亿参数的视觉模型,这也是迄今为止最大的一个视觉模型。


今天我们发布会上我们所展示的自然语言大模型的能力,它也是基于一个千亿参数的模型,那么前不久我们也向我们的社区开源了数智化2.5,这是一个30亿参数的多模态的模型。


去年年底的时候,我们已经有了10亿参数的AIGC的模型,能够支持文生图和图生图。那么所有的这些方面的这些积累,不同的模态,它的汇聚促使我们正在去训练一个更加强大的多模态的大模型。


除此之外还有我们的决策智能,我们有决策智能的模型,在星际争霸的比赛当中,我们的决策智能模型是超越了Deep Mind的AlphaStar,也战胜了大中华区的冠军,也在自动驾驶、能源还有金融领域去落地。所以未来的话这也会进一步融入到我们的大模型当中,多模态的大模型当中。所以商汤未来我们的通用的人工智能的大模型体系里面,就包括了我们的视觉感知、语言理解、内容生成和决策推理。



我们的大模型已经覆盖了公司的核心的业务,在智慧城市、智慧商业、智慧汽车、智慧生活,我们的4大板块里面有超过20个场景实现了扎扎实实的落地。那么大家实际上也可以看到场景的丰富性,我们的数据还有任务这样一个多样的同步,它也充分的去展示了我们大模型体系很强大的能力和未来的潜力。



接下来我们以自动驾驶为例,我们可以看到大模型给我们带来的价值。在2021年的时候,在我们感知大模型的指导下,就是开发了感知算法,这个也是在挑战赛当中以绝对优势夺得冠军。


那么今年我们有一个最新的工作UniAD,也是在一个模型里面实现了感知和决策的一体化,端到端的优化。他也获得了CVPR的best paper,那么未来我们也希望能够能通过我们多模态的大模型去继续推动我们自动驾驶的进步。


今天我们可以看到我们2021年我们的BEV的算法,那么它是基于环视的摄像头作为输入,利用我们的Transformer将这些多个摄像头的感知的数据直接去映射得到最终的结果,那么行业里面也有非常好的影响力,也在实现量产落地的过程当中。



那么到我们的V2的版本,我们做了一个升级,因为它模型架构是升级为我们2.5的更加强大的一个架构,也是实现了时域更好的对齐,在相关榜单上也得到了榜单的第一。



那么在我们的UniAD的工作当中,我们是首个实现感知决策一体化端到端的自动驾驶解决方案。那么再一个环视的图片,经过我们的Transformer去映射到BEV的特征,同时我们进行目标的追踪,在线的建图,去预测我们目标的轨迹,还有对障碍物进行预测,所以最终能够实现我们的驾驶的行为。


那么因为我们可以进行端到端的优化,我们可以看到在各项关键的指标上,我们都可以去明显的去超越SOTA。比如说我们在多目标追踪的准确率上,比SOTA又提升了20%,我们在车道线它的预测的准确率提升30%,运动的预测误差降低38%,规划误差降低28%。



那么未来我们还有非常大的潜力,利用我们多模态的大模型去继续推动我们自动驾驶的技术。比如说我们可以用AIGC去生成大量的困难的图片,用环视的感知的数据和多模态的数据作为我们大模型的输入,实现感知决策一体化的集成。在它的输出里面,我们通过环境的解码器去重构我们的3D的环境,通过我们的行为解码器去预测我们的路径的规划,还有动机解码器去解释我们的自动驾驶的动机。那么在大模型的推动下,我希望将来自动驾驶系统它更加的安全可靠,能够有可解释性,更加接近人的驾驶行为。



也是在我们大模型的加持下,我们实现感知和决策数据的闭环,因为我们从车端可以获源源不断的获取大量的数据。这些数据如果用手工的标注效率是非常低的,有了我们大模型的存在的话,它可以去自动进行数据的标注再反馈,能够去分析我们车终端的这样的模型,让它能够变得更为强大。



在人工智能新范式的加持下,也大大提升了我们的数据标注的服务。在人工智能1.0的时代,我们依赖于人工的标注,时间长,成本高。那么现在我们可以基于我们的大模型实现自动的标注,可以几百倍的去降低我们的成本,去快速迭代优化



我们可以看一看我们的模型的感知能力,我们在ImageNet分类任务上,在所有的开源的模型当中是唯一一个它的准确率能够超过90%。那么在业界知名的COCO数据集,在检测的任务上,我们也是唯一一个能够突破65的成绩。


那么这一个模型在20多个不同的场景、不同的任务、单模态和跨模态的公开数据集当中都取得了最好的成绩。这里面我们举了一些例子。比如说在这些任务和数据集当中,那么现在这里展示的好像是最好的,单一的任务当中选择了他的SOTA的表现,那么绿色的是说通才的大模型和单一模型能够在各个数据集达到最好的程度。那么红色那就是书生2.5他能够取得的成绩。



我们基于我们的感知模型,我们有商汤的明眸,提供自动数据标注的服务。如果大家可能去登录我们的网站,我们就可以看到我们有12个模型,里面包括通用模型,还有一些专业领域的专业模型。那么在这里面的话我们可以选择模型,比如说一个结构化检测,在这里面我们上传我们的图像。基于我们的大模型,它就可以自动的进行数据的标注,在这里面它可以进行目标的检测,还有一些属性的识别,在里面的下方和右方都是会显示我们这些数据的信息。那么这里面是一个更加有挑战的case,在这里面的话我们看更加密集的车辆,还有行人,尤其是还有一些颗粒度比较细的,我们也能够检测比较准确。




我们还可以有看到有3D的物体的检测,还有通用目标。在通用类别的检测里面,我们有超过900多个类别在单一的模型我们就可以实现检测,还有它的输出。



大家也可以到我们的API的网站,现在API的方式能够开放出来,让大家可以申请 API的密钥去体验我们的自动数据标注的服务。



所以总结一下,它涵盖了超过1000个不同的目标的类别,2D和3D有超过10个行业里面的专有的大模型,我们还在源源不断的去在里面加入我们新的模型,还有新的标注的类别。也可以去针对人工智能秒画它生成的这些图像,进行更详尽的数据的这些标注,这样的话有一个闭环,源源不断的去产生新的数据。


基于我们的日日新的大模型的体系,我们开放了API。主要里面包括我们自然语言生成的API,图片生成的API,视觉通用感知任务和标注的API。


前面我们大家也可以看到我们几个模型它的能力,比如说在图片生成里面的话,这个API就支持文生图、图生图,速度高,能够支持6K的高清的图像。我们刚才还可以看到是不同风格的图像,而且用户还可以根据自己的需要用的API进行自助的训练。


那么自然语言生成的服务里面支持了中文的多轮的对话、超长文本的理解的能力,而且它还可以不断的学习进化。


那么我们的标注服务、感知支持2D和3D的这些视觉的任务,它去极大的去提升了效率,降低我们的成本。



最后我们展望,人工智能新的技术革命已经到来。所以它的影响其实是极其的深远,必将推动商汤持续的去加大我们在基础设施上的建设,去重塑我们整个的研发体系。


我们也非常期待和我们的客户、我们的生态的合作伙伴、更多的有志青年和商汤一起投入到通用人工智能的时代大潮当中。


商汤的大模型我们命名为日日新,这也是我们时刻的去鞭策自己要突破自我、不断创新这样一个技术的信仰。那么我们的大模型也是具备日日新的演化的速度。那么在未来的日子里面,我们还会不断的有新的作品呈现给大家,敬请大家期待,谢谢大家。



自商汤技术日纪要,属于公开资料,需纪要全文言。


  - end -  


欢迎加入行业交流群!

欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的行业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。



AI相关报告

1. ChatGPT研究框架(80页PPT)

2. 产业调研:一线专家眼中的ChatGPT

3. 产业调研:医疗认知智能技术进展

4. 海外ChatGPT公司有哪些已经落地的商业模式(深度)

5. GPT-4 即将发布,带来什么产业边际变化?

6. 百度文心一言发布会详细纪要

7. 产业调研:百度文心一言与GPT-4的差距有多大?

8. 居然是微软打开了金山办公的市值空间

9. 英伟达GTC大会万字纪要

10. 海外AI大模型梳理:技术革命的本源

11. 国内AI大模型梳理:三英战吕布

12. 产业调研:大模型,人工智能的暴力美学

13. 寻找AI技术潜在应用场景的方法论是什么?

14. 华为:盘古大模型全貌



法律声明:

本公众订阅号(计算机文艺复兴)为国泰君安证券研究所计算机研究团队依法设立并运营的微信公众订阅号。本团队负责人李沐华具备证券投资咨询(分析师)执业资格,资格证书编号为S0880519080009。本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰君安证券研究服务签约客户,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。本订阅号所载内容版权仅为国泰君安证券所有。任何机构和个人未经书面许可不得以任何形式翻版、复制、转载、刊登、发表、篡改或者引用,如因侵权行为给国泰君安证券研究所造成任何直接或间接的损失,国泰君安证券研究所保留追究一切法律责任的权利。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存