NVIDIA Tensor Core对RTX显卡光线追踪的性能影响
记得有一次跟朋友们聊技术,谈到NVIDIA为什么不在GeForce消费级显卡上砍掉Tensor Core时,我顺手发了一句很大众化的答案:“因为要配合RT光线追踪来用”。如果没记错的化,NV自己就是这样说的,不过如果较真一点,似乎可以引出2个问题:
1、RT Core硬件光追单元,必须要Tensor Core配合才能工作吗?
2、如果支持不用Tensor Core的话,在两种情况下光线追踪的性能相差多少?
今天正巧我在《NVIDIA AMPERE GA102 GPU ARCHITECTURE(Second-Generation RTX)》白皮书里看到了答案,也不算啥新闻了,顺手简单写点东西分享给大家。
GA10x StreamingMultiprocessor (SM)
上图是Ampere GA10x架构GPU中的一组流处理器单元,可以看出第三代Tensor Core和INT32整数单元、FP32浮点单元已经是并列关系。而第二代RT Core相对独立,每个SM模块中配置1个。
在Turing时代,NVIDIA GPU的浮点单元已经支持按照FP32单精度性能的2倍来处理FP16半精度浮点计算。而到了Ampere架构,由于INT32整数单元也能改用于浮点,所以FP32性能也翻倍了。
这张图就到本文的重点了。针对上一代图灵架构的RTX 2080 Super测试,单纯使用Shader“软件处理”光线追踪用时51ms;启用RT Core(但不一起用Tensor Core)提速到20ms;而全部一起加上Tensor Core之后只要12ms。
开头的2个问题,一下就都有答案了。
再看安培架构的RTX 3080运行同一测试,除了整体性能比2080 Super更好之外,新一代RT Core对光线追踪的加速效率也有所提高。
最后再提一下安培架构RT Core对运动模糊(Motion Blur)的优化。原理图那些我就不在这里重复了,Blender渲染测试是实在一些的东西(也可能用了“典型”场景),可以看出在Quador RTX 6000上需要373秒来处理的运动模糊,在最新的RTX A6000上只需要56秒了。
先写到这里,希望对大家有点参考:)
扩展阅读:《让45W TDP CPU稳跑75W的秘密:Blender渲染测试(含Optix去噪点)》
参考资料 https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf
注:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)
尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage
长按二维码可直接识别关注
历史文章汇总:http://www.toutiao.com/c/user/5821930387/
http://www.zhihu.com/column/huangliang
↓↓↓