1986年,北京市,披着军大衣的年轻人在街头跳舞 摄影,郭建设
1986年底,年过四十的李国杰从美国回到中国, 成为中国科学院计算技术研究所的一名研究员。1990年3月,北京友谊宾馆,国家智能计算机中心宣布成立。那一年,李国杰组织了一支很特别的队伍,其中的大部分人没有造过计算机。李国杰认为,不理解操作系统源程序,是不可能造出计算机的。于是,他们花了两年时间,分析了几百万行的代码,一行一行地抠。信仰不能松动,斗志不能松懈,办场誓师大会鼓鼓劲儿。“人生能有几回搏” 几个大字写在黑板上。誓词在发黄的纸页上褪色,有句话压在了肩膀上:“相信你们一定能做出来!”夜夜龙泉壁上鸣,无数个趴在键盘上睡着了,手里还紧紧握着鼠标的凌晨四点。誓言像闹钟一样叫醒大脑。个体的幸福是有限的,人们常常是和国家、和时代一起同苦同乐。1996年,以“863”计划的重大成果曙光一号为知识产权,曙光信息产业有限公司成立。作为国产芯片,“龙芯”出发时,来自中国科学院计算技术研究所的胡伟武,前来请战。1999年前后的行情是,价格在10万元人民币以上的计算机,才能被称为高端计算机,或者高性能计算机。而很多情况下,高性能计算机又被称为“超级计算机”。穿过时光隧道,把你手上的iPhoneX拿到1960年,以它的计算能力,也可以叫超级计算机。超级计算机的应用,是用最复杂的计算机,突破最难问题。总有人,对集成创新嗤之以鼻,唯有原始创新才是英雄儿女。然而,创新不能一刀切,把已有科技成果有机地结合起来也有难度。还有一点就是,在当时的情况下,能选择的路,并不多。2010年,曙光6000研制中,采用龙芯3A实现了一部分,但并不是主要部分。2011年,神威蓝光问世,这是以国产多核CPU芯片为基础的第一台超级计算机。这代表着:只能用国外芯片生产超级计算机的历史结束了。超级计算机的赛场,永远不会止步于在榜单上,止步于实验室“无菌”环境里。
“有一家叫华为的公司,七八百号人搞研发,每年投入的研发费用超过一个亿,其产品有竞争力应在意料之中。”2003年12月的一个早晨,热带的阳光在给清凉的沙粒加热,两位身穿色彩明亮的椰树风衬衫的中国人和一位身着运动服的外国人,漫步在海南岛的沙滩上,聊得很是投机。其一是时任摩托罗拉首席运营官迈克•扎菲罗夫斯基,另一位是时年59岁的华为创始人任正非。沙滩漫步的结果是,摩托罗拉同意以75亿美元收购华为。然而,剧情急转弯,收购流产了。此后,摩托罗拉与华为这两位时代巨子驾着不同命运的马车绝尘而去,一路狂奔的还有华为钢铁一般的,自研技术决心。
李国杰院士回忆,2003年的时候,华为支持大学和科研院所做预研的资金曾经连续两年减少。究其原因,大学和科研院所与华为做的在同一层次,而且不如他们做的好。这事曾让李国杰院士扪心自问:像(中科院)计算所这样的国立科研机构究竟该做什么研究?2008年3月,华为与赛门铁克公司(Symantec)的合资公司成立。为此,华为派出约4000-5000名精兵强将,而赛门铁克派出的仅仅是三位外籍高管。我探访到了一位接近女高管的人士,他提到了一些往事细节。女高管常驻香港,定期飞成都。
这也印证曾有华为员工提到的,华为负责存储的高管大多在成都。“合作很顺利,赛方不需要高管蹲守成都。”匿名受访人的原话。赛门铁克这家公司,在信息安全领域全球领先。这场合作,各取所需。一家外国企业“借道”华为发达的销售网络,进军中国市场。任正非曾说:“华为跟着人跑的机会主义高速度会逐步慢下来。”2014年的最后十几天,浪潮集团台北研发中心在101揭牌。台湾是芯片的高地,芯片制程工艺长期领先,坐拥大批核心高端人才,IT设备代工王者云集,排名前10位的代工厂有,广达、纬创、仁宝……岁月易逝,这些台资代工厂的合计份额一度超过90%,订单来自IBM、戴尔、惠普……那时候,浪潮想得很清楚,借力我们的台湾,重金猎聘。于是,一批技术功底扎实的台湾科技人才投入浪潮的怀抱。下好这一步棋,浪潮服务器设备水平实现了三级跳式的跨越。在这件事上,浪潮集团董事长兼CEO,山东企业家孙丕恕,显露出高瞻远瞩的决策力。猛将必发于卒伍,宰相必取于州郡。历史性的脚步,都在时间的长廊里留下了回响。 如果说超级计算机是发动机,千行百业就是汽车,得装进汽车里才知道它的性能。以前,超级计算机主要用于科学研究,核爆模拟、气象气候、生物信息计算等。而每一种科学问题,都有其固有的特性(并行性),这也意味着重复“堆机器”永远无法具有“超级计算”的霸气。再加之,不同应用对超算的需求迥异,不做艰苦研究与科技创新,肯定没戏。曾有人把拉力不足归因为我国生产力落后。仿真工业产品性能,也要工业部门能用得上。1999年,国内有一家飞机公司的总工,一度完全不相信波音777没有一张纸质图纸。仿真驱动研发,数值模拟技术疯狂地缩短研制周期,简化、减少甚至取消实物试验。一场美国学术会议上,乐事薯片公司出现在演讲台上。这并不是中场茶歇广告赞助商的致辞,而是如何用超级计算机模拟薯片生产中的空气动力学。
如何把薯片上的调料撒均匀?好吃的秘密是数值模拟的结果。超级计算机藏在刷剧、吃薯片的肥宅时光里。年历翻到2016年,中国超算人擦干汗水、抹掉泪水,终于迎来高光时刻。中国队2016和2017年连续两次夺得“戈登贝尔奖”,这是国际上的最高学术奖,江湖人称“超算界的诺贝尔”。如今,不仅“天河”、“曙光”、“神威”等超级计算机,使国家级超级计算基础设施进入世界领先行列,而且,从《2019中国HPC TOP100厂商份额趋势图》中可以看到,中国厂商超过了高性能计算领域的“传统劲敌”,IBM和惠普。绿皮火车停靠首都经济圈城市河北衡水,神州高铁抵达中原城市群落的中心河南郑州。在2020年中国超级计算领域两场重量级的会议上,这些声音朴素、结实、鲜明。学界与工业界一呼一吸。在北京航空航天大学钱德沛教授首发演讲的七天后,一位华为高管便在演讲时引用了他的观点,并标明信息来源为“衡水讲话”。这场演讲,题为《新形势下高性能计算发展面临的挑战和任务》。全球高性能计算机(HPC)TOP500榜单历时已久(从1993年开始,每年的 6 月和 11 月发榜)。作为风向标,反映了超级计算机发展的新动向。排行榜的变化折射出全球高性能计算在技术和应用方面的研究现状和发展趋势。回首发展的曲线,2013年成为这个榜单显著的分水岭。在此之前,榜单上排名第一位的超级计算机性能和上榜计算机的总体性能,一直呈现出这样一个趋势:超级计算机的性能每十年到十一年,提高一千倍。从2013年开始,上升的曲线变得平缓,甚至于在2019年11月,TOP500榜单的前十名和前一次相比没有发生变化。如果没有革命性的技术突破,超级计算机性能不可能再保持十年一千倍的发展速度,而有可能降到十年一百倍,或者更低。发展之所以变缓,从技术角度观察,是遇到了一些瓶颈。第一、能效指标的约束,不能单纯依靠系统并行规模的扩大来提高性能。第二、登纳德缩放比例定律 (Dennard Scaling)的失效。每一代半导体工艺的进步不再能保证芯片功率密度的恒定,其结果是芯片功耗急剧上升。第三、摩尔定律接近失效,芯片性能不再能每两年翻一番。第四、体系结构变化缓慢,没有新的体系结构提出。在颠覆性技术方面没有新的技术出现,包括经常谈到的量子计算、超导计算,距离实用还有相当一段距离。第五、新原理器件缺乏突破。比如,存算一体的器件和全光交换的器件等。2013年,导演李安凭借《少年派的奇幻漂流》获得奥斯卡大奖,但是超算性能发展却按下了减速键。2015年,美国提出国家战略计算计划,美国政府多个部门协调,加快超级计算的发展。美国能源部在NSCI(美国国家战略计算计划)框架下正在实施“E级计算计划(ECP) ”,投入将近36亿美元。36亿美元中的近18亿美元开发软件应用,余下的18亿美元研制3台E级计算机。
美国,原计划第一台E级机Aurora将在2021上半年完成,持续性能将达到1EFlops(每秒百亿亿次)。后续的Frontier和El Capitan将在2021-2023年完成。从目前看,美国第一台E级机有可能提前到2020年底前问世。日本,对E级计算雄心勃勃,2020年6月,日本的超级计算机“富岳”成为世界上运算速度最快的计算机。这是时隔九年之后,日本超级计算机重登TOP500榜首。为了研制富岳系统,日本富士通公司专门开发了新型ARM处理器,扩展了512位的向量部件,支持8位整数运算和多种字长的浮点运算,适应人工智能应用需求。内存采用HBM2,访存带宽与计算能力之比高达0.4,这是日本超级计算机系统的特点。系统能效有很大的改进,但功耗还是达到28.33MW,仍有改进空间。欧盟,计划在2023年左右建立E级计算基础设施,装备3台左右E级计算机。在目前的欧洲先进计算合作伙伴计划(PRACE)的基础上发展,旨在为欧洲地区科研机构提供具有世界级水平的高性能计算服务。欧洲,现在提出要研发自己的处理器,由Atos公司牵头自研处理器。另外,欧洲非常重视开源处理器架构RISC-V,在欧盟支持下,依托巴塞罗那超算建立欧洲开放计算机体系结构实验室(LOCA)。虽然,欧洲在超级计算机的硬件制造方面比美国和日本滞后,但是,欧洲高性能计算基础研究和应用基础好,在新的计算模型、语言、算法,大规模数值模拟等方面很有特色。中国,“十三五”重点研发专项把研制依托于自主可控技术的E级计算机研发领域并行应用软件和研发国家高性能计算环境作为其目标,要突破E级计算关键技术,使高性能计算在关键领域得到应用,并进一步推动国家高性能计算环境的服务化建设。2015年4月,美国对中国国防科技大学及其相关国家超算中心实施禁运。时至今日,美国已经把中国主要的超级计算机研制单位全部列入“实体名单”,实施禁运和封锁。在严峻的国际环境下,E级和后E级计算面临重大技术挑战,主要包括:降低系统功耗、提高应用性能、改善可编程性、提高系统可靠性等。面对这些挑战,需要体系结构的创新,关键技术的突破和软件硬件的协同。高性能处理器和加速器、内存芯片(特别是3D内存)、新型存储系统\器件(例如非易失存储器件NVM)、高速互连网、光传输和光交换器件、IC设计EDA软件、先进的芯片制造工艺等。在高性能计算应用软件方面,目前大部分工程计算软件依赖进口,更大的问题在于,基于国产处理器的超级计算机上的系统软件和应用软件怎么解决。第一要重视体系结构。上世纪八十年代是体系结构研究的黄金年代,出现了RISC、超标量处理器、多层次缓存、预期执行、编译优化等一大批体系结构创新,使计算机性能每年提升60%。我们希望体系结构研究再次迎来“百花齐放、百家争鸣”的局面,使超级计算机从以规模取胜的“恐龙”式系统,向灵巧、节能、应用高效的“哺乳动物”式系统发展。到目前为止,没有一种体系结构能够覆盖所有应用的需求,通用与专用始终是长期争论的问题。未来的超级计算机可能会出现多样化、灵巧化、专用化的局面,通专结合是重要手段。高性能计算方向重点研发专项的使命和愿景,是研制新一代高性能计算机及其应用系统,使算力得到大幅提升,以满足国家创新发展的战略需求。两个重点的考量分别是,研发“新一代高性能计算系统及其应用”和“带动自主可控基础软硬件技术与产业的跨越式发展”。
回首20年发展,始终强调机器、应用和环境的协同发展。任务二、高性能计算机应用关键技术和领域应用软件的研发。考虑如何使算力成为国家新型基础设施,真正把计算能力像水电一样便捷地提供给用户?“E级计算机将是世界上最大的深度学习平台,研究E级计算机一定要从机器学习的负载特征中获得需求信息,人工智能可能是中国在超算上弯道超车的一条途径。”中国计算机学会高性能计算专委会秘书长,张云泉在采访中告诉我:“从2019年中国HPC TOP100行业应用领域机器系统份额图来看,大数据/机器学习占11%,互联网/云计算占34%,短视频占5%,三者加起来已达50%。”全球Top500HPC榜单,也可以被称为“全球速度最快500台超级计算系统排名榜”。2019年的榜单中近30%系统拥有加速卡/协处理器,即越来越多的系统配有大量低精度算术逻辑单元,以支撑人工智能计算能力需求。尤其值得一提的是,榜单前10名都拥有人工智能计算的能力。2019年,内蒙古呼和浩特,在HPC China会议上,清华大学计算机系郑纬民教授也做出判断:郑纬民教授谈道:“具有顶级计算能力的超算系统理应为大规模人工智能应用提供助力,不断拓展人工智能的技术边界。2018年的戈登贝尔奖选择大规模深度学习应用,入围的应用中,人工智能相关的项目也前所未有地占据了半壁江山。”“这一切都预示着人工智能与超算的结合,将越来越紧密。”而新关键点也进入视线,异构、数学库、调度、通讯库、AI库……硅谷钢铁侠马斯克参与创立的研究机构OpenAI发布了一份“人工智能与计算”分析报告。自2012年以来,最大的人工智能训练中所使用的计算力呈指数增长,每3.4个月增长一倍。算力是AI再次起飞的基石之一,如今已是像牙膏牙刷一样的AI日常消耗品。
深度神经网络规模越扩越大,超大规模人脸识别、超大规模自然语言处理模型如雨后春笋。微软亚洲研究院首席研究员刘铁岩,曾在“MSRA AI讲堂2019校园行”活动中谈道:“很多研究都在追求 ‘大力出奇迹’。”另一位重量级学者周明说:“(AI在发展)无休止的计算资源军备竞赛。” 人工智能的需求超越了任何一款芯片的单独处理能力,必须使用分布式架构,把很多加速器芯片协同起来一块儿工作。分布式训练的实际性能,高度依赖底层硬件的使用效率。1957年出生的陈左宁,岁月堂堂忽六旬,依然在为中国高性能计算事业奔忙。2020年初,她获得了中国计算机学会女性科技工作者“CCF夏培肃奖”。简单地说,高性能计算的目标有三个,性能,性能,还是性能。现在多了一个跟大数据和人工智能融合的任务。超级计算机有些瓶颈是和服务器、小型机共同的,比如内存墙。但是,陈左宁院士的观点表达出这两个战友配合得并不默契。 “人工智能所需要的能力,没提升上去。超级计算机能够提供大量的计算能力,但是人工智能不需要。”
“超级计算机为数值计算设计,并不是为人工智能设计。所以,AI用于现在的超算体系上不合适,没办法物尽其用,只能说是——‘能做’。”
陈左宁院士指出了方向:“经典高性能计算的环境可支持现有人工智能模型算法,但性能功耗和性价比都比较低,并非最适合的,需要创新体系结构和软件架构。人工智能不需要复杂的节点计算,也不要复杂的指令系统。体系结构的需求是高可扩展架构设计,更合理的映射。”在华为内部资料中,一份题为《超算中心建设汇报》的PPT上写着:“Gartner主存储魔力四象限中,华为存储处于领导者象限。华为存储在中国区市场占有率第一(IDC全闪存Market Overview数据显示)。”外部资料同样如此。2020年9月29日,IDC发布的《中国企业级外部存储市场季度跟踪报告,2020年第二季度》报告显示:华为市场份额同比猛增8.9%至30%。美国科技巨头亚马逊公司旗下云计算服务平台AWS的S3对象存储服务是事实工业标准。但是可以观察到,大多数对象存储都有兼容S3的接口,包括,业内人士口头禅是:“大家都有(与之对应的)S3接口。”AWS和华为都是ARM的信徒,ARM也给高性能计算注入了活力。如今,华为围绕鲲鹏和昇腾芯片建造出属于自己的“HPC+AI”的王国,全自研软硬件。首先,发挥芯片的算力要构建数学库,华为自研全栈数学库,远在俄罗斯建立数学库人才团队。其次,自建CANN库和开源深度学习框架MindSpore。其中MindSpore,对标谷歌公司的TensorFlow。再次,平台层面有自研作业调度和集群管理,从头开发,一行一行代码写,有加拿大研究院的参与。最后,自研MPI+自研RoCE网络,性能逼近IMPI与IB结合的网络。华为组织架构上,云&计算BG,下面分为“云BU”“计算产品线”“数据存储与机器视觉产品线”,计算产品线里包含了昇腾计算、鲲鹏计算子领域。华为内部有大小云之分,云与计算BG,昵称“大云”,云BU,昵称 “小云”。曾在IBM任职多年,现任华为智能计算HPC解决方案首席架构师的王飞在演讲中也认可大数据,人工智能和高性能计算,大趋势是融合。他谈道:“现在建一个大规模超算,一般不会专门针对传统单一HPC业务,肯定会考虑在上面运行多样性的业务,比如人工智能,大数据等。在一个大规模的集群环境下,多样性的业务,多样性的负载,融合是未来发展趋势。”但是,更为关键的是,王飞用两句话表达了长期以来的思考:“多样性的业务和多样性的负载,使得我们需要多样性的算力,在一个集群里头可能会使用CPU、GPU、NPU、FPGA等各种通用和专用加速芯片。而支撑这些业务的软件平台也需要多种,包括传统的HPC调度平台,AI深度学习平台,大数据平台、容器平台等,业务的融合也将促使多种平台软件的融合,这正逐渐成为当前技术发展的趋势。” “以上这些,如何在一个集群里能部署好,融合到一起,并且很好的工作,这是个困难的事情。”大数据一轮,出现了变革性的系统、软件和算法。人工智能对变革性技术的需求也绝少不了。人工智能是典型的稠密计算,传统的科学计算和事务处理系统和软件,该如何适应?自2018年起,五花八门厂商全栈人工智能系统现身于大大的广告屏上。在2019年、2020年高性能计算大会现场,随手抽一张厂商广告,HPC+AI字样已经随处可见。演讲中,会议上,AI+HPC讨论不断,麦克风轰隆隆,掌声哗啦啦,计时器叮叮咚。2020年9月底,华为EI(企业智能)部门正在进行专门的AI与HPC融合的立项准备工作。按此推论,整合AI和HPC两侧的资源,共同发力,会为应对趋势有诸多好处。华为在上海负责该项目的员工在采访中表示:“暂时不方便透露。”曾几何时,CPU的发展以提高主频为主要方向,因不能解决巨大的功耗问题而走到尽头。后来,科研与产业换了车道,重点突破多核CPU技术,这个转折让我们赶上了。并行处理技术成为所有人的难点,我们面临的问题,国外也没有很好地解决。如今,白发苍苍的老年人刷抖音都像上了发条,大街小巷的智能手机的处理器都变为多核的了,不做并行计算不行。并行计算技术已经处在一个全新的时代。对于AI训练而言,多卡和多节点的支持变成硬性需求。 “下一个十年,将出现一个全新的体系结构的‘寒武纪大爆发’,学术界和工业界的计算机架构师将迎来一个激动人心的时代。体系结构的改进必须和并行算法、并行软件同步进行,而且越是高层的改进,效率提升就越大。”他强调:“因此,未来几十年一定是并行计算的黄金时代。”互联网大厂盘踞网络流量入口,历经大数据的洗礼,抢占AI射门的最佳位置。这类大厂在AI训练时,分布式计算和并行计算所用的架构有何不同?对于这个问题,我采访了一流科技创始人,清华大学博士袁进辉。袁博士先解释了之前的情况,他说:“之前,在互联网大厂,尤其是大数据、互联网业务中,机器学习所使用的技术架构,不是HPC的架构。”他转折了一下:“但是,当深度学习起来之后,他们使用的架构就趋同了。袁进辉博士总结道:“互联网大厂针对大数据与人工智能的深度学习集群架构,从高性能计算的架构里面借鉴了很多东西。比如,双剑合璧的CPU+GPU异构计算是先出现在HPC领域的,因为深度学习本身的计算特点,高度并行,计算密集,用异构非常适合。”他的观点是:“现在看来,并行计算和分布式,互联网大厂深度学习集群架构和超级计算机已经非常类似了。”一流科技公司是深度学习框架开源软件厂商,对标谷歌TensorFlow。一流科技与之江实验室联合研发了深度学习平台。超算一开口,就是“亿元起步”。人工智能,土豪随意,丝毫不甘示弱。
全球排名第一的日本“富岳”超级计算机造价约70多亿元人民币,用电量更了不得,一年满负荷耗电量是2.4亿度。2019年,微软亚洲研究院一出手就买60块英伟达DGX-2超算,花费近两亿人民币(据一位匿名研究员透露)。再看看几大研究机构,鹏城实验室、之江实验室、北京智源研究院,均由地方政府主导、出资,算力预算都是大手笔。我在公开信息中查到,2020年《鹏城云脑Ⅱ扩展型项目信息化工程第一阶段项目》预算28.1亿元,采购产品主体为华为AI集群。 誓师会上的泪光,胡伟武的“提头来见”,钱德沛教授在“衡水讲话”中的最后发问:如何在外部限制与封锁下,保持我国超级计算机的持续发展?
“这是必须回答的问题,自主可控不是应该鼓励的可选项,而是唯一出路。‘为国分忧’,不仅写在会议PPT上,也是写在中国高性能计算从业者心底里的话。” 我们的目标是:产业上不受制于人,居于全球价值链中高端。