查看原文
其他

NVIDIA Tensor Core对RTX显卡光线追踪的性能影响

唐僧 huangliang 企业存储技术
2024-12-10

记得有一次跟朋友们聊技术,谈到NVIDIA为什么不在GeForce消费级显卡上砍掉Tensor Core时,我顺手发了一句很大众化的答案:“因为要配合RT光线追踪来用”。如果没记错的化,NV自己就是这样说的,不过如果较真一点,似乎可以引出2个问题:

 

1、RT Core硬件光追单元,必须要Tensor Core配合才能工作吗?


2、如果支持不用Tensor Core的话,在两种情况下光线追踪的性能相差多少?

 

今天正巧我在《NVIDIA AMPERE GA102 GPU ARCHITECTURESecond-Generation RTX》白皮书里看到了答案,也不算啥新闻了,顺手简单写点东西分享给大家。

 

GA10x StreamingMultiprocessor (SM)

 

上图是Ampere GA10x架构GPU中的一组流处理器单元,可以看出第三代Tensor CoreINT32整数单元、FP32浮点单元已经是并列关系。而第二代RT Core相对独立,每个SM模块中配置1个。

 


Turing时代,NVIDIA GPU的浮点单元已经支持按照FP32单精度性能的2倍来处理FP16半精度浮点计算。而到了Ampere架构,由于INT32整数单元也能改用于浮点,所以FP32性能也翻倍了。

 


这张图就到本文的重点了。针对上一代图灵架构的RTX 2080 Super测试,单纯使用Shader“软件处理”光线追踪用时51ms;启用RT Core(但不一起用Tensor Core提速到20ms;而全部一起加上Tensor Core之后只要12ms

 

开头的2个问题,一下就都有答案了。

 


再看安培架构的RTX 3080运行同一测试,除了整体性能比2080 Super更好之外,新一代RT Core对光线追踪的加速效率也有所提高

 


最后再提一下安培架构RT Core对运动模糊(Motion Blur的优化。原理图那些我就不在这里重复了,Blender渲染测试是实在一些的东西(也可能用了“典型”场景),可以看出在Quador RTX 6000上需要373秒来处理的运动模糊,在最新的RTX A6000上只需要56秒了。

 

先写到这里,希望对大家有点参考:)

 

扩展阅读:《让45W TDP CPU稳跑75W的秘密:Blender渲染测试(含Optix去噪点)

 

参考资料  https://www.nvidia.com/content/PDF/nvidia-ampere-ga-102-gpu-architecture-whitepaper-v2.pdf

 


企业存储技术》文章分类索引(微信公众号专辑)


:本文只代表作者个人观点,与任何组织机构无关,如有错误和不足之处欢迎在留言中批评指正。进一步交流技术,。如果您想在这个公众号上分享自己的技术干货,也欢迎联系我:)


尊重知识,转载时请保留全文,并包括本行及如下二维码。感谢您的阅读和支持!《企业存储技术》微信公众号:HL_Storage

长按二维码可直接识别关注


历史文章汇总:http://www.toutiao.com/c/user/5821930387/

http://www.zhihu.com/column/huangliang



点击下方“阅读原文”,查看更多历史文章

↓↓↓

修改于
继续滑动看下一个
企业存储技术
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存