查看原文
其他

挑战英伟达,国产通用GPU芯片创下全球算力记录

光子盒研究院 光子盒 2023-03-04
光子盒研究院出品


2022年8月9日,壁仞科技发布首款通用GPU芯片BR100,创下全球算力纪录,16位浮点算力达到1000T以上、8位定点算力达到2000T以上,单芯片峰值算力达到PFLOPS级别,峰值算力达到英伟达在售旗舰产品3倍以上。BR100采用7nm工艺,集成770亿晶体管,2.5D CoWos封装技术,芯片面积1000平方毫米,是国内率先采用Chiplet(芯粒)技术、率先采用新一代主机接口PCIe 5.0、率先支持CXL互连协议的通用GPU芯片。



壁仞科技创始人、董事长、CEO张文表示,这标志着全球通用GPU算力纪录第一次由一家中国企业创造,中国的通用GPU芯片正式迈入“每秒千万亿次计算”新时代[1]。



中国科学院院士、深圳大学校长毛军发表示,这一科技成果具有重大意义,有助于我国参与全球算力竞争[2]。


壁仞科技还正式发布了自主原创架构——壁立仞,创造全球性能纪录的OAM服务器——海玄,以及OAM模组——壁砺100,PCIe板卡产品——壁砺104,以及自主研发的BIRENSUPA软件平台。


01

三年造出首款通用GPU


壁仞科技创始人张文是一位非业内创业者,但他却筹集了这个行业中最多的钱,组建了这个行业中最牛的团队。


张文发布BR100


根据中国企业家杂志报道,张文拥有哈佛大学法学博士履历,管理经验丰富。早年间,他是华尔街泛美亚市场资深投资人;2011年,他受邀出任中芯国际创始人张汝京再次创业成立的映瑞光电科技公司的CEO;2018年,他担任商汤科技总裁,并主导了商汤科技总部落地上海[3]。


2019年5月16日,美国将华为列入实体名单,多家美国芯片断供华为。受此影响,国内掀起芯片创业的第一个小高潮。这一年,张文决定创立壁仞科技。从2019年9月9日注册成立到2021年3月完成B轮融资,短短18个月里,壁仞科技融资额超过47亿元,创下国内芯片创业公司的融资纪录。


早期投资方启明创投合伙人周志峰笃定:我们遇见张文和壁仞科技创始团队的时候,人对、思路对、捕捉的市场需求对。


虽然不懂具体的技术细节,但张文知道自己的优势所在:“之前的创业经验很好地证明了我在资本、人才和资源上的整合能力。”


他找到哈佛的朋友,对方给他列出了一张GPU大牛名单。。张文第一个盯上的“大牛”便是来自于海思,负责自研GPU团队的洪洲。


2019年上海世界人工智能大会上,洪洲与张文初次见面,或许是微妙的大环境变化,洪洲正想进行一些不同的尝试,两人一拍即合。只见了两面后,洪洲便应允出任壁仞科技CTO一职。在洪洲之后,壁仞科技很快攒齐了一群技术才俊。包括曾经创建高通公司骁龙GPU团队、领导5代Adreno GPU架构开发的首席架构师焦国方,前阿里云AI基础架构负责人徐凌杰,海光前海外GPU部门副总裁张凌岚,EDA软件巨头Synopsys前AI Lab负责人唐杉,AMD前全球副总裁、中国研发中心总经理李新荣,英伟达前上海总经理杨超源等。


洪洲发布BR104


说起找人的速度,张文很满意自己的成绩:“他们都叫我中国第一大猎头。”


最牛的团队+最多的钱=最好的产品!2021年10月,壁仞科技宣布首款通用GPU“BR100”正式交付台积电生产。这一芯片采用了台积电7纳米的制程工艺,已进入流片阶段,预计将在2022年面向市场发布,用于人工智能训练推理、通用运算等。


2022年3月31日晚,壁仞科技第一款通用GPU芯片BR100系列点亮成功。随着本周二正式发布,BR100成功创下全球算力记录。


壁仞科技给出的数据显示,其首款旗舰产品BR100对比英伟达在售的旗舰GPU峰值算力在Int8、BF16、TF32/TF32+、FP32数据格式下最少有3.3倍的峰值性能优势,在FP32数据格式下性能优势更是达到了13.1倍。


02
挑战英伟达,关键是生态


众所周知,GPU全称图形处理单元,早期只是充当图形处理工具,由于图形渲染任务具有高度的并行性,因此GPU是并行编程模型。正因为它的并行性,从21世纪早期就有专业的计算人员想要使用GPU做一些人工智能领域相关的并行计算。但是,想要调用GPU的计算能力必须编写大量的底层语言代码。


因此英伟达在2006年推出了统一计算架构CUDA。CUDA助力GPU方便且高效地发挥其并行计算能力,使GPU的使用范围不仅限于显卡,而成为了通用GPU。CUDA经过多年优化,形成独特软硬件配合的生态系统,业界独此一家,产品壁垒极高。


除了经典计算,英伟达还率先推出量子版本的统一计算平台QODA(Quantum Optimized Device Architecture,量子优化设备架构),用于加速人工智能、高性能计算、健康、金融和其他学科的量子研发的突破。可见生态建设对于计算行业的重要性。


因此,仅仅是算力超过英伟达,还远远不够。英伟达在软件、生态方面积累深厚,壁仞科技面临的关键问题,是如何补足这些缺口。


从成立伊始,壁仞科技就做好了前瞻性规划,他们与供应商、生态合作伙伴及客户早早开始沟通,已对客户需求分析地非常清楚。壁仞科技下一步将重点推进加速芯片商用落地的软件工作。


洪洲说[4]:“我们要做一个真正能落地的、能兼容现在的生态的、真正能大规模量产的通用架构。”


根据此前的报道,BR100将兼容CUDA,在洪洲看来,新的GPU板卡要无缝地支持CUDA生态,这比更高的算力,更好的能效比更重要。也就是说,目前阶段必须保证用CUDA写的程序无缝运行在壁仞科技的异构计算开发平台上,不应为了追求所谓的极致能效,而打破对通用编程模型的兼容性。


但壁仞科技的终极目标,是提供比CUDA更好的自研编程模型。在兼容CUDA当前版本的同时,打造自有编程模型。


从这次发布来看,壁仞科技已经朝着这个目标迈出了坚实一步。发布会上,洪洲详细介绍了原创架构——壁立仞。壁立仞架构以数据流为中心,对数据流进行深度的优化,通过六大技术特性,比较完整地解决了数据搬移的瓶颈和并行度不足的问题,使得BR100在给定的工艺下实现了性能和能效的跨越式进步。


同时发布的还有自主研发的BIRENSUPA软件平台,它构建在BR100系列产品的底层硬件之上,由驱动层、编程平台、框架层、应用解决方案构成,支持各类应用场景。BIRENSUPA编程平台位于软件栈的中心位置,包括BIRENSUPA编程模型、加速库、工具链、编译器等组件。开发者可以通过这些组件,释放BR100系列硬件的强大算力,并开发各种应用。


BIRENSUPA平台框图


BIRENSUPA平台支持主流的深度学习框架,发布会上,壁仞科技联席CEO李新荣与百度飞桨训练芯片适配技术负责人李琦共同宣布,壁仞科技加入由百度飞桨发起的硬件生态共创计划。


为了更好地服务全球开发者,壁仞科技开发者云也已经正式上线,官网上已开放邀测。壁仞科技希望通过社会各界开发者的共同努力,形成聚沙成塔的力量,共同推动中国半导体技术的发展,真正做到让更多人从技术发展中受益。


参考链接:

[1]https://www.birentech.com/News_details/16125806.html

[2]https://mp.weixin.qq.com/s/UPwc95nadGVSW3C1BHHoRw

[3]https://www.jfdaily.com/news/detail?id=516223

[4]https://mp.weixin.qq.com/s/nblHuDI8AXxjp__o4w46HA


相关阅读:
英伟达正式发布基于GPU的量子电路模拟SDK
中国科大实现了单光子探测器芯片的全国产化
告别“卡脖子”! 首款国产量子芯片设计软件诞生
国产单光子探测器芯片取得突破
中国推出世界首款支持NIST优胜抗量子算法的商用密码芯片

#光子盒视频号开通啦!你要的,这全都#

每周一到周五,我们都将与光子盒的新老朋友相聚在微信视频号,不见不散
你可能会错过:

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存