专访张宏江：「大模型+大算力」撑开深度学习瓶颈，中国也有做出全球顶尖研究的环境

Original 闻菲机器之心 2023-02-23

机器之心原创作者：闻菲

张宏江认为，智源研究院将人工智能领域的优秀人才聚在一起，探索并成功找到一个能够产生原始创新与长期影响的领域，即超大规模预训练模型；智源将围绕「悟道」巨模型构建生态系统，一方面不断去撑开深度学习的瓶颈，更重要的是这个探索表明，在中国同样有开放、自由、足以做出全球顶尖研究的环境。

在计算机科学乃至整个人类发明史上，贝尔实验室都是一个传奇。那里诞生了晶体管、C语言、Unix 操作系统，开创了信息论这个新的研究领域。

另一个例子是施乐 PARC，那里制造出了全球第一台带有图形用户界面的计算机、第一个局域网、第一个「所见即所得」文本编辑器……这些，还有其他的伟大发明一起，奠定了如今我们所熟知的计算机生态体系。

但贝尔实验室和施乐 PARC 的荣光并没有持续，在上个世纪一段并不长的时间里，美国的大型综合实验室作为创新的发动机，将科学研究、技术转化和经济发展完好地结合在了一起。在新的时代背景下，如何借鉴其优点并规避其缺陷，是任何一家科研机构负责人都需要思考的问题。

张宏江尤其。2018 年 11 月，他正式出任北京智源人工智能研究院（以下简称「智源研究院」）理事长，继参与创立微软亚洲研究院、创立微软亚洲工程院、担任微软亚太研发集团 CTO 和金山集团 CEO 之后，再度执掌一家以研究为一大核心使命的中心。

在微软的 12 年里，张宏江和他的同事们在中国创建了一座世界一流的企业研究院和一所全球领先的高水平核心软件产品研发机构。在金山的 5 年里，他帮助这艘中国本土软件行业的旗舰完成了移动互联时代的成功转型。因此，不难想象有很多双眼睛都在看着，加入智源研究院的这段时间里，张宏江和他的团队都做了些什么。

作为依托北京市科委和海淀区政府成立的新型 AI 研发机构，智源研究院确立了三项重要任务：一是构筑一个社区；二是打造一个真正适合青年科学家成长的平台；三是专注于一些可能产生原始创新与长期影响的领域，包括过往投入不足、重视度不够的领域。

在 2021 年 6 月 1 日举行第三届智源大会上，张宏江接受了机器之心的专访。随着会上悟道 2.0 巨模型的发布，他认为智源研究院成立两年多以来，通过「智源模式」成功聚集起一批优秀的青年科学家，初步建立了社区，并将「大模型+大算力」明确作为探索通用人工智能的路径之一，而 AI 大模型不仅本身是一个可能产生原始创新与长期影响的领域，还将成为一个平台，催生更多世界级的成果。

更重要的，张宏江指出：「我愿意将悟道 2.0 视为北京乃至中国人工智能发展的一座里程碑，它的成功表明，在中国同样有能够做出全球顶级研究的环境。」

张宏江领导下的「智源模式」究竟为何？智源研究院将如何产出具有深远影响的原创性研究？将众多优秀青年人才聚集在一起，我们未来能否看到一个新时代背景下具有中国特色的贝尔实验室或施乐 PARC，并且自身可持续？

把优秀的人聚在一起，自然会产出有影响的成果，甚至开创新的领域

1993 年 1 月，张宏江以第一作者的身份在同行评议期刊「Multimedia Systems」的创刊号上发表论文「Automatic partitioning of full-motion video」，这篇文章建立了现代视频检索和内容查询的一个基本框架，成为现代多媒体研究领域的经典文献之一。不久后，他还开发出一套视频检索系统并在美国取得专利，这项专利被柯达、英特尔等知名公司购买，广泛用于各种产品和研发中。

得益于多项这类基础性、框架性的工作，张宏江在 2010 年和 2012 年先后被计算机科学领域的国际顶级学会 IEEE 和ACM SIGMM 授予「技术成就奖」（Technical Achievement Award），分别表彰其在多媒体内容分析系统方面开创性的贡献，以及在多媒体计算、通信和应用领域「重大而持久的贡献」。

2010年张宏江（右）荣获IEEE技术成就奖，表彰其在多媒体内容分析系统方面开创性的贡献。来源：IEEE.org

但被问及如何才能找到或者解决这类能够产生长期影响的问题时，张宏江却表示这其中并没有什么秘密。「只要将优秀的人聚在一起，建立一个开放和自由的环境，他们自然会发现有价值的问题并产出有影响的成果，甚至开创新的领域。」他说：「如果不然，那就是恰好领域发展慢，条件尚未成熟，我们要遵循学科发展的规律。」

当然，智源研究院并非简单地将优秀人才聚在一起。

首先，是他们对「优秀」的定义。在人才筛选方面，智源主要通过小同行推荐和评议，把北京的 AI 人才都捋了一遍。因为圈子小，大家对彼此在做些什么很熟悉，「小同行推荐或许会把 8 分说成 9 分，这在一定程度上也是可以接受的，」张宏江表示：「但绝不会出现把有说成无，或者无说成有的情况。」

其次是「跨领域」。集聚不同领域或圈层的研究者并不是一件容易的事。高校和研究院之所以分专业，原因就在于随着学科发展，需要相关人员专注于各自的纵深。尽管互联网和各种通讯工具让（即时）沟通显得异常便利，但相比外地或外校的老师，高校教授和研究人员还是更容易与本地或本院系的同事合作。再者，将不同领域的研究人员聚在一起，虽然有了更多研究问题的思路、工具和方法，但如果不去尝试理解对方看待问题的视角和沟通术语，反而会导致效率降低。

智源研究院应对这一问题的方法是「目标导向，自由探索」。在智源聚集起来的研究人员，至少在其各自形成的小组内，都在为共同的目标而努力，并且这些目标是其中至少一个领域已经被认可的问题。例如，在悟道 2.0 的研发过程中，关于训练用平台架构和芯片的使用，模型团队与系统团队有过深入的探讨。最终，悟道 2.0 在全国产 CPU 上完成训练，模型团队的成功自不必多言，而对于系统团队，他们也在其领域高度关注的大模型分布式训练、适应性计算等方面取得了重要进展。

最后，或许也是最容易被避而不谈的，就是团队合作与个人名誉之间的矛盾。对此，张宏江非常豁然，毕竟，归根结底，大家都愿意加入最终能出成果的团队。赢的队伍里没有输家，况且团队合作也能出多个明星，就像当初在微软亚洲研究院一样。

2007 年第 15 届 ACM 国际多媒体会议，张宏江（右二）等人的「Correlative multi-label video annotation」获得最佳论文奖，合作者 Guo-Jun Qi、华先胜、芮勇、唐金辉和梅涛，如今都已是国际知名教授和企业高管。来源：blog.kie.org

智源研究院的初衷，是以资助「人」为核心，「让北京市科委和海淀区政府将足够多的资源给到这些年轻科学家」，同时营造开放、自由和健康的环境，然后放手让他们去探究。

「我愿意将悟道 2.0 视为北京乃至中国人工智能发展的一座里程碑，它的成功表明，在中国同样有能够做出全球顶级研究的环境。」张宏江说。

「欢迎大家加入智源，」他补充道：「不能加入的，可以先合作起来。」

用「大模型+大算力」把深度学习的瓶颈撑开

目前，由深度学习催生的这一波 AI 发展在理论上已经遇到瓶颈，但工程上却大有可为。张宏江表示，悟道团队在做的，就是用「大模型+大算力」不断把深度学习的瓶颈撑开，让更多工程上马，更多技术落地。

在这种不断撑开的过程中，会出现许多有待解决的理论问题，以及工程上的优化，而这将为学术界和产业界都创造更多施展的空间。

「我一直相信大模型本身会成为一个平台，这也是我们要围绕它建立生态系统的一个核心原因。」张宏江语气笃定。

如果将 AI 比作电力，那么大模型则相当于「发电机」，能将智能在更大的规模和范围普及。研发发电机乃至构建发电厂，需要团队协作，而且最好是由跨领域的小团队组成的大团队来完成。事实也证明，与小型研究团队相比，大型研究团队更擅长完善创新。

但「完善创新」并不等同于简单的打补丁。智源研究院学术副院长、悟道项目负责人清华大学教授唐杰告诉机器之心，悟道巨模型正在从应用层面拉动从底层硬件到操作系统，再到智能软件一整个生态的变革和演进：底层硬件方面，包括训练使用什么类型的芯片、探索新的体系结构，甚至如何构建未来的智算中心；在模型层面，不断增大的规模也带来了全新的发现。「我们在大模型的尺度上观察到了在以往小模型上看不到的现象，」唐杰说：「比如悟道 2.0 可以从零开始，从大量的数据中自动学习出一些知识。」

在悟道2.0的发布会上，所有参与者的名字都被列了出来。来源：智源研究院

科学 ≠ 技术，量化容易导致短期行为，让研究人员无心聚焦真正有价值的问题

目前，悟道团队正在努力构建一个平台供外界使用，并根据反馈再做改进。而这引出了科研管理的另一个关键问题——如何在赋予研究人员足够多自由的同时，确保他们的研究能够产出切实可用的成果？

智源的方法依然是小同行自治。各研究小组内会有频繁的不定期会议，虽然是非正式的讨论，但这样的交流对学者而言却更具紧迫感和约束力。就好比跟导师说月底交论文初稿是一回事，但月底在一众小同行面前公开分享论文完全是另一码事。

至于研究人员的考核，身为科研管理者的张宏江「最不喜欢『量化』」，他认为科研是创造性的工作，对创造性工作进行量化评估，容易导致短视、走偏等一系列问题。

「不仅如此，频繁的量化还会分散科研人员的心力，而这或许更加致命。试想，当你每年必须要发 10 篇论文，你首先去想的，或者说占据你大部分心思的，就成了哪 10 篇论文更容易发表，而不是去思考真正有价值、有意义的问题。」

将 99% 的精度提升为 99.1%，有没有意义？有，但意义大不大？这就难说了。在他看来，太多聪明的人之所以没有成功，就是因为他们将心力花在了不断去完善一个已经被解决的问题。

真正优秀的工作需要时间，也需要时间去证明。如今大热的深度学习，理论突破发生在上个世纪，很多研究的影响需要十年甚至二十年才开始显现。

「投钱给科学是做公益，不能功利。」张宏江说。

科学 ≠ 技术，那些真正善于研究的人，根本不关心产品，也不关心市场，他们甚至不在乎任何意义，只是单纯的好奇。「一旦设定了考核指标，就有了功利，而一旦追求功利，有了『心魔』，反而难出成果。」

所以他讨厌「量化」。一年发 10 篇论文的人一定比不发论文的人强吗？完全可能是后者对于发论文的自我要求更高而已。一篇被引用了 100 次的论文一定比只有两三个引用的论文更有真知灼见吗？首先要看这些引用来自哪里。

在评估智源团队的研究工作时，张宏江看重的是同行的认可，尤其是领域公认的牛人的认可，以及其他人对研究成果或想法（idea）的关注和应用。例如，悟道 1.0 公布时，无论是学术界还是产业界，大家更多都处于观望状态，而悟道 2.0 甫一发布，就有不少公司主动问询并表示想要参与，甚至愿意投钱，这就是其影响力和价值的一个很好证明。

AI 产学研融合急不来，智源做的一切都是为了提高概率

即使是依托政府，智源的工作终究需要交付价值：如果不打算赚钱，研究院的最终目标是什么？公众如何才能知晓智源在做对社会有用的事情？

张宏江提到，受益于中国广阔市场及一系列支持政策，眼下是中国科技创业最好的时期。但是，AI 产学研融合急不来——还是那句话，要把不同领域的优秀的人聚在一起，对于具备产业化条件的技术，自然会催生出好的结果，不适合的就用作公益的心去做。作为理事长，他并不要求年轻的智源研究院急于证明什么。

「我们希望能够立足于我们对技术的理解和对人才的了解，然后能做得比别人稍微好一点，这样我们的成功率就会比较高一点。」

「源创计划」通过整合智源智能研究院在技术、人才、场景和资金等方面的资源，为学术界或产业界的 AI 创业团队提供加速服务。来源：智源研究院

一家成功的企业，是技术、研发、产品、市场和营销等一系列的完美结合，最后活下来的技术创业者，绝不会仅仅是因为懂科研，或是技术好，或者更会喝酒。创业需要注意客户需求、技术与产品之间的鸿沟、尊重商业规律、了解自己能力边界、把握好创业的节奏，并且尽快找到应用切口。

「我们要做是的促进北京人才聚集，或者是保持人才聚集的优势，而智源在中间不追求短期利益，否则就麻烦了。」张宏江说。

「北京市的人工智能保持全国第一，或者是重大的人工智能突破发生在北京，沿着这个思路，智源就有存在的价值。」

WAIC AI开发者论坛：后深度学习的AI时代

7月8日—10日，AI 开发者论坛将通过三大核心模块：AI开发者论坛、WAIC· 开发者黑客松和WAIC· 云帆奖展示本年度人工智能领域最前沿的研究方向和技术成果。
7月10日，WAIC AI开发者论坛邀请到多位业界大咖带来精彩分享，主题涵盖大规模语言智能、SysML（机器学习系统）、多模态机器学习及大规模自动生成技术、RISC-V技术及生态、AI 原生计算机系统等热门话题，满足 AI 开发者多层次的学习需求。

在精彩的分享外，我们还准备了RTX 3060 显卡、HHKB键盘、Air Tag、人工智能专业书籍、桌搭鼠标垫，现场签到即可参与抽取。

识别下方二维码，立即报名。

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

律师解读：江歌母亲被实名举报

现在的伊朗，为啥人人都像摩萨德？

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

专访张宏江：「大模型+大算力」撑开深度学习瓶颈，中国也有做出全球顶尖研究的环境

把优秀的人聚在一起，自然会产出有影响的成果，甚至开创新的领域

用「大模型+大算力」把深度学习的瓶颈撑开

科学 ≠ 技术，量化容易导致短期行为，让研究人员无心聚焦真正有价值的问题

AI 产学研融合急不来，智源做的一切都是为了提高概率

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

律师解读：江歌母亲被实名举报

现在的伊朗，为啥人人都像摩萨德？

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

生成图片，分享到微信朋友圈

专访张宏江：「大模型+大算力」撑开深度学习瓶颈，中国也有做出全球顶尖研究的环境

把优秀的人聚在一起，自然会产出有影响的成果，甚至开创新的领域

用「大模型+大算力」把深度学习的瓶颈撑开

科学 ≠ 技术，量化容易导致短期行为，让研究人员无心聚焦真正有价值的问题

AI 产学研融合急不来，智源做的一切都是为了提高概率

您可能也对以下帖子感兴趣