国产新一代超算“天河星逸”发布：1597.44万核心，峰值性能达620PFLOPS？

Original 芯智讯-浪客剑芯智讯 2023-12-28

12月17日消息，据金羊网报道，本月6日，以“超智融合，算启新篇”为主题的2023年超算创新应用大会在广州盛大召开。在此次大会上，国家超算广州中心正式发布了中心的新一代国产超级计算系统——“天河星逸”。

据国家超算广州中心主任卢宇彤介绍，“天河星逸”以应用为中心，采用国产先进计算架构、高性能多核处理器、高速互连网络、大规模存储等关键技术构建，在通用CPU计算能力、网络能力、存储能力以及应用服务能力等多方面较“天河二号”实现倍增，支持高性能计算、AI大模型训练以及大数据分析等多种应用场景的需求，将进一步提升国家超算广州中心的多领域应用服务能力，为广州市、广东省和粤港澳大湾区的前沿科技突破、战略工程建设、产业升级转型提供强劲的高端算力与平台支撑，有力提升广州市作为国家中心城市和综合性门户城市的核心科技创新实力，支持区域科技经济社会高质量发展。

国家超算广州中心副主任陈志广表示，“天河星逸”采用了最先进的超算技术，相比原有系统，在通用算力上提升了5倍，并且强调了应用能力的提升，应用软件存在进一步发展的空间。超算互联网最终目标是实现全国联网，下一步计划与深圳超算、无锡超算实现联网。

天河星逸通用算力提升了5倍

资料显示，“天河二号”部署在国家超算广州中心，它使用了Intel Xeon E5-2692 12核处理器及Xeon Phi 31S1P加速卡，总计拥有312万个核心，整机功率也达到了17808千瓦，理论性能是54.9PFLOPS（5.49亿亿次），Linpack峰值性能33.86PTFLOPS，从2013年6月份到2016年6月份它的性能都没有变化，连任了六次TOP500冠军。

天河二号原本有后期升级计划，但是2015年美国政府颁布禁令，严禁Intel等公司向中国四家超算中心出口高性能计算芯片，这样使用Intel Xeon Phi加速卡的天河二号就不能再使用美国公司的高性能芯片了。

2017年9月份，广州超算中心宣布2017年底前升级天河二号超算系统，使用国产加速器Matrix 2000取代原本的Intel Xeon Phi加速器。据了解，Matrix 2000的整数架构应该是ARM，但是矢量单元是国内自定义的256bit VFU矢量单元。每个Matrix 2000由128个内核组成，频率为1.2GHz，每周期能执行16个双精度运算，处理器峰值性能为2.45TFLOPS。升级后的天河二号被称为天河2A，峰值性能从之前的54.9PFLOPS提升到了100PFLOPS左右。

按照官方的说法，“天河星逸”的通用性能相比原有系统（升级后的“天河二号”，即天河2A），在通用算力上提升了5倍，也就是说，“天河星逸”的峰值算力应该达到了约600 PFlop/s（每秒50亿亿次）。

值得注意的是，在今年11月10日在北京召开的“ChinaSC2023第五届中国超级算力大会”上，发布了2023中国高性能计算机性能TOP100排行榜，其中就披露了排名第一的于2023年在超算中心安装的“超算中心主机系统异构众核处理器”性能参数，其CPU核数达到15974400核，峰值性能达620PFLOPS，超过了神威·太湖之光。显然，这个数据符合前面关于“天河星逸”算力的说法。

今年8月12日，国防科技大学公布的《国产天河新一代超级计算机智能计算节点机时服务单一来源谈判公告(2023-YKJSJY-F5027)》显示，“拟采购国产天河新一代超级计算机智能计算节点36万节点小时的机时服务，用于测试验证动态风场计算软件的功能和性能。拟合作供应商：国家超级计算天津中心。”

对于选择国家超级计算天津中心为单一供应商的理由为：“因项目需要在具备MT3000处理器的国产高性能计算系统上测试验证动态风场计算软件环境，需采购36万节点小时的国产高性能计算系统机时服务。天津超算主机系统是天河一号系统（TH-1A）和天河新一代系统（含E级验证系统）。其中，天河新一代系统具备基于MT3000处理器的计算节点，能够满足项目需求，且目前国内仅有天津超算能提供基于MT3000处理器的国产高性能计算环境。因此，本次采购拟采用单一来源的方式进行。”

2018年7月，新华社曾报道称，由天津超算中心研发的“国产新一代百亿亿次超级计算机——“天河三号”E级原型机完成研制部署，并顺利通过分项验收。该原型机系统采用了三种国产自主高性能计算和通信芯片。”随后在2019年，进一步的报道显示，“我国百亿亿次超算‘天河三号’原型机已为30余家单位完成大规模并行应用测试并逐步开放服务”。

结合上述信息来看，传闻中的具备E级算力的“天河三号”采用的正是国产的MT3000处理器。而此次广州超算中心发布的“天河星逸”很可能也是基于MT3000处理器，当然也有可能是基于传闻的Matrix 2000+。目前尚未有关于MT3000处理器的更进一步信息，不过可以肯定的是，其性能相比上一代的MT2000将会带来大幅的提升。

国产E级超算神威·海洋之光

另外，值得一提的是，相比天河2A性能更为强大的“神威·太湖之光”超级计算机系统，采用了40960个中国自主研发的“申威26010”众核处理器，该众核处理器采用64位自主申威指令系统，核心工作频率1.45GHz，峰值性能3.168万亿次每秒。神威·太湖之光里安装有40960个这样的处理器，整体的峰值性能可达12.5亿亿次/秒，持续性能为9.3亿亿次/秒。

而传闻中的新一代神威超算——神威·海洋之光（Sunway Oceanlite）将采用全新的申威 SW26010-Pro 处理器，预计将带来更为强大的性能。

在今年11月召开的SC23 （International Conference for High Performance Computing, Networking, Storage, and Analysis，是高性能计算、体系结构领域顶级会议）大会上，我国科学家向世界展示了全新的申威 SW26010-Pro 处理器，性能比上一代提高了四倍。这是我国采用自主指令集（基于 Alpha 进行扩展），具有完全自主知识产权的处理器系列产品。

根据PPT资料显示，SW26010 pro是SW26010改进型，拥有6个核心模块和 1 个协议处理单元（PPU）构成，每个模块有1个管理Linux线程的核心（MPE）和64个计算核心，总计384 个内核，相比之下上一代的SW26010 只有 4 个核心组，说明SW26010 pro单芯片应该有50%的性能提升。

SW26010 Pro处理器的64个（8×8）计算核心网络是一个具有256KB L2高速缓存的计算处理单元（CPE）。每个CPE有四个逻辑块，可以在一对上支持FP64和FP32，在另一对上则可以支持FP16和BF16。

SW26010 Pro中的每个核心模块上都有一个DDR4-3200内存控制器和16 GB内存，内存带宽为51.4 GB/秒，因此整个处理器有96 GB主内存（相比 SW26010 的 32 GB 实现了显著提升）和307.2 GB/s带宽。六个CPE通过环形互连连接，并有两个网络接口，使用专有互连将它们连接到外部。SW26010 Pro芯片的FP64或FP32精度为14.03 PB，BF16或FP16精度为55.3 PB。

另外，SW26010 Pro的MPE内核运行在2.1 GHz（前代产品仅 1.45 GHz），CPW内核运行在2.25 GHz，再加上全新 64 位 RISC 微架构和系统架构的改进，其 FP64 计算吞吐量也增加了四倍以上。

据介绍，神威·海洋之光最大的配置超过100000个节点，共有超过4100万个核心，分布在大约105个机柜中，峰值半精度（FP16）性能超过5 Exaflop/s，FP64的理论峰值性能为1.5 exaflops，仅次于美国Frontier超级计算机。

据The next platform此前报道称，如果将神威·海洋之光的规模扩大到120个机柜，在FP64 pervision下的峰值将达到1.72 Exaflops，这将超过美国橡树岭国家实验室的1.68 Exaflops的“Frontier”超级计算机。在160个机柜的条件下，在FP64的峰值性能将接近2.3 Exaflops，将有望击败已经安装完成的美国能源部阿贡国家实验室的基于英特尔CPU及GPU的新一代超级计算机“Aurora”，以及正在建设的美国劳伦斯·利弗莫尔国家实验室基于AMD MI300芯片的“El Capitan”超级计算机，后两者的FP64性能都将达到 2 Exaflops以上。

编辑：芯智讯-浪客剑

往期精彩文章

突发！商汤科技创始人汤晓鸥去世！

英特尔AI PC两年大卖1亿台就靠它了！

OPPO与诺基亚对决之下，全球首个5G专利费率判决出炉！

投资100亿美元！美国建High-NA EUV研发中心，意欲何为？

CIS涨价30%！镜头涨价30%！摄像头模组也将跟涨？

国产化率仅3%？美日荷限制之下，这家韩国检测设备商在中国赚大了！

某知名品牌未上市样机被泄露，松山湖公安成功破案！或与Mate60有关！

英特尔IEDM2023：3D堆叠/背面供电/背面触点/DrGaN助力摩尔定律推进

华虹集团接手成都格芯晶圆厂：注册资金228亿元，规划月产能3万片！

行业交流、合作请加微信：icsmart01
芯智讯官方交流群：221807116