NVIDIA Tensor Core对RTX显卡光线追踪的性能影响

Original 唐僧 huangliang 企业存储技术

2024-12-10

记得有一次跟朋友们聊技术，谈到NVIDIA为什么不在GeForce消费级显卡上砍掉Tensor Core时，我顺手发了一句很大众化的答案：“因为要配合RT光线追踪来用”。如果没记错的化，NV自己就是这样说的，不过如果较真一点，似乎可以引出2个问题：

1、RT Core硬件光追单元，必须要Tensor Core配合才能工作吗？

2、如果支持不用Tensor Core的话，在两种情况下光线追踪的性能相差多少？

今天正巧我在《NVIDIA AMPERE GA102 GPU ARCHITECTURE（Second-Generation RTX）》白皮书里看到了答案，也不算啥新闻了，顺手简单写点东西分享给大家。

GA10x StreamingMultiprocessor (SM)

上图是Ampere GA10x架构GPU中的一组流处理器单元，可以看出第三代Tensor Core和INT32整数单元、FP32浮点单元已经是并列关系。而第二代RT Core相对独立，每个SM模块中配置1个。

在Turing时代，NVIDIA GPU的浮点单元已经支持按照FP32单精度性能的2倍来处理FP16半精度浮点计算。而到了Ampere架构，由于INT32整数单元也能改用于浮点，所以FP32性能也翻倍了。

这张图就到本文的重点了。针对上一代图灵架构的RTX 2080 Super测试，单纯使用Shader“软件处理”光线追踪用时51ms；启用RT Core（但不一起用Tensor Core）提速到20ms；而全部一起加上Tensor Core之后只要12ms。

开头的2个问题，一下就都有答案了。

再看安培架构的RTX 3080运行同一测试，除了整体性能比2080 Super更好之外，新一代RT Core对光线追踪的加速效率也有所提高。

最后再提一下安培架构RT Core对运动模糊（Motion Blur）的优化。原理图那些我就不在这里重复了，Blender渲染测试是实在一些的东西（也可能用了“典型”场景），可以看出在Quador RTX 6000上需要373秒来处理的运动模糊，在最新的RTX A6000上只需要56秒了。

先写到这里，希望对大家有点参考：）

参考资料 https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf

注：本文只代表作者个人观点，与任何组织机构无关，如有错误和不足之处欢迎在留言中批评指正。进一步交流技术，。如果您想在这个公众号上分享自己的技术干货，也欢迎联系我：）

尊重知识，转载时请保留全文，并包括本行及如下二维码。感谢您的阅读和支持！《企业存储技术》微信公众号：HL_Storage

长按二维码可直接识别关注

历史文章汇总：http://www.toutiao.com/c/user/5821930387/

http://www.zhihu.com/column/huangliang

点击下方“阅读原文”，查看更多历史文章

↓↓↓

修改于

继续滑动看下一个

企业存储技术

向上滑动看下一个