查看原文
其他

专访科大讯飞刘聪:数十年磨一剑,大模型如“降龙十八掌”中的终极一掌

DeepTech深科技 DeepTech深科技 2024-02-01



随着大模型时代的到来,许多新兴公司正忙于贴上各种标签来彰显自己的特色。对一家老牌 AI 公司而言,一件更重要的事情,是如何整合过去的经验和资源再次出发。


比如说。大模型时代之前,这家成立于 1999 年的公司,是国内智能语音龙头,在自然语言理解、计算机视觉等核心 AI 技术上也有深厚积累。要观察国内 AI 产业发展,讯飞是必不可少的样本。


大模型时代以 2023 年为元年,国内就有超过 180 个大模型横空出世。讯飞在今年 5 月推出自研的讯飞星火认知大模型。


研究院院长及其团队承担着星火大模型的技术挑战。对于而言,大模型并非一个全新的存在。


他用降龙十八掌来比喻这一点:电影《武状元苏乞儿》中,苏乞儿在与对手打完十七掌之后,苦苦思索这最后一掌是什么。其实,最后一掌就是集此前大成,将之前的十七掌组合起来、一招打出。


换句话说,大模型与深度学习、认知智能之间有着非常紧密的关系,数据、算法、算力、知识几股合力共同作用到一个新的发力点上,大模型成了那个集大成者。


深度学习的黄金期并非一蹴而就,大模型无疑是当下的亮点代表。到了大模型时代,讯飞是如何打出这最后一掌的?本文基于 DeepTech 与的独家采访,希望能得到更多线索。


图|副总裁、研究院院长,语音及语言信息处理国家工程研究中心副主任


智能涌现:GPT 带来的最大启示


AI 平台型公司每一年都会举办开发者日,以集中展示一整年的技术进展。


今年 10 月 24 日的 1024 开发者节比往年更特别一些。这是他们发布星火大模型以来的第一个开发者节。


自今年 5 月 6 日到 10 月,讯飞开放平台涌进了 143 万开发者,同比增幅达到了 331%,开发者团队总数达到 550 多万。


一部分涌入的开发者在当天亲身见证了讯飞制定的一个大模型领域的“小目标”:在 2024 年上半年,讯飞星火 4.0 将全面对标 GPT-4。要实现以上目标,最大的压力落在和他带领的讯飞研究院团队身上。自 2005 年成立起,讯飞研究院负责公司所有的 AI 核心技术研发,全面支撑讯飞各个业务,涉及 30 多个产业方向。现在,星火大模型成了最关键的那一个。


作为一名从智能语音跨界到计算机视觉、并再度进入大模型所在 NLP 领域的 AI 老兵,一直在关注着人工智能领域最前沿的动作。2022 年末,ChatGPT 开启公测的第一周,他协同几位认知智能专家搭建了一个临时调研小组,去探究 ChatGPT 的实力。


他们首先注意到的是 GPT 表现出的智能涌现。


这是一种 AI 研究者无法忽略、但迄今也无法完美解释的现象,即当语言模型的规模超过一定量级参数时,它将展现出前所未有的新能力。


甚至不需要学术评测,只要用过的人都会直观地感受到,GPT 此时在多个任务上的输出质量,已经稳定地碾压此前的 AI。


对于崛起于智能语音技术、同时也深耕行业认知智能多年的讯飞而言,几乎是毫无疑问,新的天花板出现了,大模型可以超越以往智能对话系统的范畴,也意味着扩展到更为智能、灵活的应用场景。


不过,仅仅回答能不能出掌还不够,更重要的是,大模型这一掌非打不可吗?


巨大的投入是第一个可预见的门槛。根据美国媒体 The Information 的报道,由于“昂贵的服务器”,ChatGPT 每天的花费就高达 70 万美元,每个月的成本则在百万美元以上。


认为,做大模型这件事情,则符合讯飞一贯坚持的理念——用源头技术创新,以系统性创新解决重大社会刚需。


“我们的布局也源于对业界最核心技术的跟进,从 2017 年 transformer 技术十分热门之后,我们持续跟进了 GPT 和 BERT 的技术迭代发展路线,也做出了一系列中文的开源模型。同时,我们也很关注实际应用场景对自然语言理解技术的需求是什么,例如汽车、智能硬件等领域的对话交互,以及教育、医疗、司法、工业场景中的知识问答,相关技术在这些场景中也陆续取得了一定的应用成效。”


GPT-3 问世后,讯飞研究院也客观评估了其效果:尽管在生成任务上效果相对较好,但在一些判别式任务中则效果一般,某些场景下此前较小的模型也能实现并应用。但 ChatGPT(即 GPT-3.5)让和团队眼前一亮:


“ChatGPT 效果很惊艳,通用任务的覆盖、多轮交互的能力、小样本学习任务等方面都表现不俗。最重要的是,它的通用效果非常显著,比如说在医疗等专业领域和垂直的模型效果相当”。形容道, ChatGPT 的效果打开了认知智能的天花板,而“智能涌现”的 AGI 曙光正从中照进来。


很快,这种惊艳的效果也传播到了 AI 从业者外,社会各界对于 ChatGPT 的讨论也越来越多,有颠覆派,也有声音认为它依旧没有脱离“一本正经地胡说八道”。


是讯飞中坚定的支持派。他的“触角”很多,对 ChatGPT 的多渠道信息来源,让他愈发笃定 ChatGPT 很可能是颠覆性的。


而且,从讯飞的积累来看,从语音、语言到多模态再到以大模型为雏形的AGI,讯飞去实现这种智能涌现,虽不是一日建成的罗马城,但也不是需要从 0 到 1 的新长征。


拆解大模型这一概念,它依然深深植根于深度学习的范畴。


图|大模型概念拆解

深度学习的核心是构建多层次的神经网络,通过这些层次进行特征的提取和数据的抽象,从而实现对复杂问题的建模。


大模型可以视作深度学习理论在实际任务中的应用,其本质还是庞大而复杂的深度神经网络。这些模型包含大量的参数和层次,能够更好地捕捉数据的特征,实现对庞大数据集的学习和理解。随着深度学习算法的改进和训练方法的优化,大模型的性能得到了显著提升。因此,大模型可以看作是深度学习理论的实践体现。


简而言之,在上一波深度学习浪潮中走过来的企业,具有天然的基因去做这件事。当然,这需要超前的眼光。业内也有说法,将这一次中国本土大型模型的兴起一直往前追溯到上一波深度学习热潮,那时国内科研机构和企业开始成规模地积极投入深度学习和自然语言处理领域。


大模型背后关键的深度学习和自然语言理解技术,讯飞早在很久之前已有布局。2006 年左右深度学习提出后,讯飞即着手研究,并于 2011 年推出首个深度学习语音识别商业系统;同年,讯飞也开启了语义理解相关研究,还推出了类 Siri 的产品讯飞语点,此后基于承建的语音和语言信息处理国家工程研究中心、认知智能全国重点实验室持续开展认知智能技术研发,除了在多项国际赛事中收获冠军,也在教育、医疗、司法等多个领域实现落地应用成效。


图|深度学习曾入选“十大突破性技术”(TR10)

放在讯飞身上,大模型不仅仅是一个庞大的存在,更是一个可以切入的实体,是降龙十八掌的最后一掌。


这也是为什么认为,对讯飞而言,大模型虽然新,但并非陌生物种, ChatGPT 虽然惊艳,但并非不可追赶。


明晰的大模型进阶目标,如何实现?

追赶正式摁下加速键,是在去年的 12 月 15 日。


这个日期之前,和团队迅速进行了相关的技术和研发体系的验证。想要正式迈出这一步,以下两点必不可少:即具备建制完整的研究团队和关键技术上的积累。


团队部分,以数据来看,讯飞研究院有 1500+人,完整覆盖自然语言处理、智能语音、计算机视觉等技术方向。此外在研发投入上,财报显示,讯飞 2021 年研发投入 29.36 亿元,2022 年增长至 33.55 亿元,同比增长 14.28%。


第二点即“降龙十八掌”的前十七掌,正如上文所述。2022 年 12 月 15 日星火大模型研发的推进会正式召开,第一次推进会就拉通了核心研发平台的各方向团队,完整地覆盖了大模型的研发、部署和优化等。


不止讯飞这一家,国内其他在深度学习技术上进行了大量投入的互联网公司和 AI 公司,也开始有所动作,大模型赛跑已然枪响。


对于讯飞要做自己的大模型,不同的声音不断袭来。“不同群体的人有不同的理解。学界、业界熟悉讯飞的朋友知道大模型是讯飞过去这些年相关技术厚积薄发的最好机会。不熟悉讯飞的朋友,或者对大模型与深度学习、自然语言理解关系了解不多的朋友可能会认为,此前讯飞在大模型发声不多,所以不是自己做出来的”,说。


也有人猜测认为,讯飞在做“套壳”大模型。这个说法在 5 月 6 日的发布日当天不攻自破。


图|5 月 6 日讯飞星火发布会现场

“发布会之后,我们的大模型在业内综合效果可以说数一数二,而且在发布会上全程是真机实测演示。”说。


此后,讯飞星火大模型能力升级按下加速键。6 月 9 日突破开放式问答、多轮对话能力再升级、数学能力再升级;8 月 15 日突破代码能力,多模态交互再升级;10 月 24 日实现通用模型对标 ChatGPT,中文超越、英文相当。


也分享道,这些目标的完成,很快地经过了一次市场检验:数据显示,2023 年双十一,C 端硬件产品中,讯飞硬件销售额同比增长  126%。此外,根据 1024 公布的数据,讯飞星火 1200w+ 用户,讯飞星火加持下讯飞开放平台的开发者团队总数达到 550 多万家,与大模型直接相关的企业级用户超过 10 万家;讯飞星火上有 1.5 万助手开发者开发了 2.9 万应用……讯飞将今年的硬件销售额、开发者团队、企业用户增长,归功于讯飞星火认知大模型能力的加持。


而且,讯飞这种对大模型迭代的明确性不仅体现在时间上,也体现在空间上——星火认知大模型的“1+N”路线。


讯飞的通用大模型为什么要 1+N?


“1+N”这个代号其实非常直接:“1”就是通用的认知智能的大模型,“N”就是把这个大模型在各个领域的落地,包括教育、办公、汽车、人机交互以及医疗等。


当然,数据、算法、算力——深度学习的三座大山,同样横亘在大模型面前。认为,大模型时代也赋予了它们全新意义:大模型、大数据、大算力,相关的挑战也来自于此。


讯飞团队上拥有关键算法创新的两个核心策源地——认知智能全国重点实验室、语音及语言信息处理国家工程研究中心,都在算法层面为讯飞星火认知大模型打下了坚实基础。


数据上,大模型对数据的“质”与“量”有更高的依赖,例如大模型的海量知识记忆能力,同时各个场景数据的有效利用,能够帮助大模型实现智能涌现。在严格遵守适用法律法规前提下,讯飞已经在多年认知智能系统研发推广中积累了教育、医疗以及讯飞开放平台上的海量行业语料和每天超 10 亿人次用户交互的活跃应用,为基于大模型的创新应用研发和试点推广提供了场景保障。


认为,认知智能大模型的智能涌现受到数据涟漪效应的推动和加速。目前,认知智能的数据标注工程从劳动密集型向知识密集型转变,源源不断的增量知识数据为大模型智能涌现打下坚实基础。


在各行业之间的差异化存在阻碍 AI 方案顺畅运行的背景下,对相关行业数据的深度挖掘和利用,最终反哺于“深度学习”的针对性进化,已逐步成为行业共识。


算力上,讯飞根据大模型训练和服务的技术挑战与需求,重新设计打造了大模型专用的一体化平台来支持混合异构算力调度,打通训练推理资源数据闭环。


在此基础上,讯飞确立了“1+3+1”的技术创新体系,去支撑讯飞星火认知大模型的持续进步:


第一个“1”是自主研发的安全可控大模型训练基座,“3”为高质量海量数据构建、多语种多任务统一建模、基于用户对话数据的强化学习。第二个“1”是指软硬一体化的高性能大模型推理平台。在算力硬件上,讯飞与等合作伙伴也展开了深入的合作。


也认为,讯飞大模型区别于其他大模型的一大特点,还在于它将以 1+N 的方式协同推动,在多个场景率先带来示范性应用(2B2C),和合作伙伴共建行业大模型。


他没有从通用和垂直大模型对立的角度去解释讯飞的路径选择,而是从认知智能发展的角度来理解:


讯飞星火认知大模型为“1+N”体系,“1”是通用认知智能大模型,“N”是大模型在教育、办公、汽车、人机交互等各个领域的落地。二者并进,“N”的数据和场景可以更新到“1”里、促进通用大模型的能力迭代提升;“1”的能力也能快速迭代融入到“N”的产品应用中去,更快速的落地,以及 1 底座提升后持续给 N 带来的提升,由此形成了一种持续的正向反馈循环。


“1+N 的方式比单独做一个 ChatGPT 模型更加复杂。多个方向的重组及大集团攻坚,意味着没有边界,要以统一的目标前行”,他说。


更进一步的,他指出,讯飞的大模型团队是一支成建制的团队,因此能去实现“1”和“N”之间形成紧密的关联。


在一支成建制的大模型团队当“工具人”


在讨论国内的大模型如何追赶 ChatGPT 时,还有一个关键的问题也常常被摆上台面进行讨论,即什么样的团队配置能对标 。


对于这一点,在一次公开场合中,讯飞给出的回答是:“做认知大模型这样的前沿核心技术研发不是靠堆人,而是靠一定规模的高手之间互相信任、高水平的协同。讯飞研究院最核心的研究团队有数百人,成员里有不少多年来和讯飞一起成长。”


从“误打误撞”进入实习、到一步步成为这个团队“大家长”,给出具有更多颗粒度的细节:


“最重要的是人工智能各个领域主流技术的全面理解,包括算法实现、工程化能力、平台化能力等。研究院在整个 AI 技术和各业务产品方向的协同方面路径清晰、高度一致。


进一步的是要挂图作战,我们指出了目标制定的逻辑,通过反推了解达到目标所需的资源和布局,并且在内部协同、无内耗的原则下与业务的紧密对接。这一点也能避免在实践中过多的试错,特别是对于大模型的开发,试错可能耗费大量时间”。


对于最后一点,他笑称,实际上在深度学习的“冷板凳”时期,讯飞已交过学费。


《麻省理工科技评论》中国曾经发布过《2021 人工智能创新研究院(AI Labs)报告》,当时讯飞研究院团队正是以语音合成、语音识别、认知智能等多个里程碑入选其中,《麻省理工科技评论》中国给出的评价词是:


成立二十二年来,在 AI 发展上,树立了语音合成、语音识别、认知智能、图文识别等多个里程碑,坚持“让机器能听会说,能理解会思考”的理念,有效推动了 AI 技术在教育、医疗、城市、生活、工业等场景的规模化应用。


2 年过去,当时这支在业内已经相当成熟的团队,也以“成建制”的姿态做好了迎接大模型时代挑战的准备。设立有挑战性的目标,过程中保持高效协同和快速增长,特别是要让年轻人发挥关键作用。

是《麻省理工科技评论》“35 岁以下科技创新 35 人”的 2018 年的入选者。当时接受《麻省理工科技评论》采访时,他表示,与团队一起把握住 AI 技术的下一个趋势,是他的目标。如今看来,他依然朝这个方向前进着。


图|

不同的是,在今年正式成为讯飞研究院院长后,他对自己所扮演的角色有了更多新的感受:院长并非多大的领导,更像是内部的一个工具人,协调各方、服务科学家和工程师成了自己的首要任务。


而对于团队其他成员的要求,他认为,在团队的创业阶段,需要年轻科学家敢于在关键时期靠英雄主义实现技术的重大突破;但是从长期来看,则更需要团队主义来实现技术的系统性落地,更好支撑各业务方向。从深度学习的兴起到现在大模型崛起,他对这一点也更加笃定。


不过,直到今日,讯飞也还在内部强调研究人员依然需要有“板凳能坐十年冷”的决心,因为研究不会是一帆风顺的,需要“皮实”一点。


当年他口中的 AI 技术的下一个趋势已经来临,讯飞要挑战在 2024 年上半年实现星火大模型对标 GPT-4,届时且看 AI 竞技场上又将迎来怎样的技术巅峰和创新风暴。


对于 2024 年的大模型市场竞争态势,他也给出了自己的判断:“经过一年的泡沫期之后,大模型领域将迎来分化的趋势”。


那些具备持续演进并具备对标 GPT-4 能力的通用大模型,并不会大量涌现。相反,已有大模型的发展和落地在各个行业将呈现差异化,这种分化的程度将受到行业实际需求和应用、大模型改造空间等因素的影响。


行业生态也是一个关键的因素,一个健康且开放的行业生态系统有助于大模型更好地融入行业实践,实现技术创新和商业应用的有机结合。


最后,技术投入、产业价值和商业回报之间的关系将在大模型领域中发挥至关重要的作用。投入更多的技术研发和资源是否能够转化为产业价值,以及最终实现怎样的回报,将决定企业在大模型竞争中的地位。


也为大模型的从业者给出了自己的建议:首先要了解各个领域对技术的需求、技术发展的趋势,避免出现盲目跟风;也要了解自己所擅长的部分;最后,一定要看未来技术发展的周边配套。基于个人科研经历和团队在 AI、大模型领域的丰富经验,总结:“不论从业还是创业,修炼好内功是最重要的。”


继续滑动看下一个

专访科大讯飞刘聪:数十年磨一剑,大模型如“降龙十八掌”中的终极一掌

DeepTech深科技 DeepTech深科技
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存