—— 青亭网
NVIDIA RTX显卡就是未来高品质游戏的赌注
Esther| 撰文
距离2016年5月NVIDIA推出GTX 10系显卡已经过去了两年多,该公司的新RTX 20系显卡终于要在9月20日发货。据NVIDIA称,RTX系列显卡中加入了快速的渲染技术,即实时光线追踪,支持这项技术对于提高游戏画面逼真度和亮度起到了很大作用。此外,新RTX显卡中比支持光线追踪更大改变在于,其性能不再只依赖功率,而是更加依靠算法和AI。
为什么这么说呢?一周后将发货的RTX 2080 Ti国行售价8199元,RTX 2080国行售价5699元,而十月份将开始发售的RTX 2070,售价为500美元(约合人民币3435元),预计将成为三款新显卡中销量最好的。
从功率来看,RTX 2070与GTX 1080相当,RTX 2080与GTX 1080 Ti差不多,而RTX 2080 Ti超越了GTX 10系列所有显卡。RTX 2070和2080的内存使用了8GB GDDR6显存,RTX 2080 Ti使用了11GB GDDR6,此外,这三款新显卡都使用了NVIDIA新推出的图灵架构,也就是说其承载了支持光线追踪的RT核心(RT Core)以及支持AI的张量核心(Tensor Core)。
在接下来,NVIDIA可能会推出RTX 2060等一系列价格更加亲民的显卡(10系曾经出到了不到100美元的GTX 1030),而且RTX 20系显卡还有升级的空间,比如RTX 2080 Ti Founders Edition特别版可承载14.2 的TFLOPS(每秒浮点运算次数),而RTX 20系显卡中使用的图灵TU102大核心可将TFLOPS提高至16.3(TU102将提高显卡主频、加入更多CUDA核心,RTX 2080 Ti有4352个CUDA核心,最高配置的TU102有4608个CUDA核心)。
除此之外,RTX系列显卡的内部性能也得到了提高,比如使用了共享内存架构的缓存系统速度更快、运用了全新的绘图流水线(电脑图形系统将三维模型渲染到二维屏幕上的过程)以及浮点与整数并行计算技术。这说明什么呢,说明RTX系列显卡的功率更大,效率也更高。
没错,尽管大家的关注点都在光线追踪技术上,而且这项技术也为游戏开发提供了无限可能,但是新RTX显卡的高效才是本文想要阐述的重点。
RTX显卡的渲染原理
不管是2000美元的游戏本还是300美元的任天堂Switch掌机,这些游戏系统的终极目标是能够控制屏幕上每颗像素的色值。而现在常用的绘图流水线繁杂、冗长,但是用三句话来总结的话就是:CPU不是用来渲染高清图像的,它会将想要渲染的图像样式传送给GPU(每小块图像都有GPU中的数百甚至数千个核心分别处理),GPU按照CPU给的样式运行着色器来设定每颗像素的色值。
说起来容易,但是对于显卡厂商和游戏开发者来说,最大的挑战是如何批量渲染。Switch掌机(分辨率1280x720)在携带模式下,像素填充率通常为27MPixel/S,其使用的NVIDIA移动端显卡用三年也没什么问题。但是如果想要达到60FPS(每秒传输帧数)的4K画质(许多RTX显卡买家期望达到的效果),那游戏系统的像素填充率就需要达到近0.5GPixel/S,这样系统就会承受很大负荷,尤其这些色值并不是PC凭空编出来的,而是要进行运算来实时模拟复杂的3D画面。
不过市面上有许多技术能够减少对游戏系统的负荷,其中一个是将一个场景中的所有部分调整为低分辨率来渲染,然后将结果应用到正常分辨率的画面中。当渲染720p分辨率的游戏放在1080p的屏幕上时,比较容易看出差别,但是如果将雾云以四分之一分辨率渲染就不太明显,而NVIDIA的RTX显卡的优势就在于,其会选择不明显的区域来进行低分辨率渲染。
NVIDIA新显卡的绘图流水线为了实现上述渲染捷径,采用了几种新的着色技巧,这些技巧依赖于MRS(多分辨率着色)和LMS(透镜匹配着色),优点是节省功率,但缺点是缺乏灵活性。上方图片展示了GPU实时渲染的时候将一个场景用网格分解,没有用颜色覆盖的方块为1:1着色的高细节度图像,和普通游戏场景相似。而被其他颜色覆盖的方块就不一样了,比如在红色方块中只需要用分辨率为4x4的像素块着色,在蓝色方块将使用2x2的像素块,因为这些方块中的细节度并不高,即使以低分辨率渲染也不是很明显。
这种渲染技术的基本概念是,一个场景中的像素着色率并不一定全是恒定的,可以有针对性地设定,比如在赛车游戏中,人眼主要集中在车和地平线上,因此画面中间到上半部分可以按照1:1渲染,而画面角落可以使用4x4像素块渲染(2x2和2x1像素块来渲染过渡的部分)。据NVIDIA称,这种方法在画面移动时几乎是无法察觉的,同时也将减轻着色核心的负荷,提高帧速率。
目前,NVIDIA在专注开发更高级的着色技巧,未来可能会支持让开发者在多个帧上重复使用纹理阴影或者改变人眼无法清晰捕捉的移动物体的着色质量。这些方法都是为了提高显卡效率,目的是在不提高硬件条件下达到最佳性能。RTX在上个月发布时,NVIDIA曾用《德军总部2:新巨像》展示过这系列显卡的自适应着色效果, 该公司称使用RTX显卡可提高15-20%的帧频,图像损失几乎可以忽略不计。
DLSS(深度学习超采样)技术
但是如何才能彻底除去着色核心的负荷呢?这就要提到NVIDIA的抗锯齿(AA)技术DLSS了,这种效果可以将游戏画面中的粗糙边缘变平滑,而且它根本不需要用到CUDA核心,而是使用AI和新的张量核心。
NVIDIA使用超级计算机为DLSS开发了针对特定游戏的算法,简单来讲就是,在超级计算机中输入超高分辨率的游戏图像后,超级电脑会将数据与低分辨率版本的图像对比,在经过几百万次尝试后,找出一种将低分辨率图像塑造成高分辨率图像的算法。之后,NVIDIA会将算法通过GeForce Experience应用发送给对应游戏的玩家使用。
经过实践,DLSS渲染的效果基本上与市面上许多游戏使用的时间性抗锯齿技术(TAA/temperal anti aliasing)相比画面更清晰。不过DLSS和所有抗锯齿技术相似,都有利有弊:比如其在细节的处理上极其优秀,不过一些直的边缘处理得并不完美。不过它比TAA技术的优势在于,它是显卡自带的,与MSAA(多重采样抗锯齿技术)相比,使用DLSS在效果相当的情况下可节省显卡的大量功率。
DLSS的一个主要局限是兼容性,因为NVIDIA需要为每个游戏开发定制的算法,如果游戏开发者感兴趣,NVIDIA愿意免费开发算法,但是有多少开发者有这个意愿就不好说了。不过考虑到NVIDIA曾经推出过的HairWorks毛发处理技术,就会发现其推出与硬件绑定的技术并没有受到市场的广泛应用,不过据称DLSS技术几乎不需要开发者做什么工作,也许这种方便性会吸引更多人来使用吧。在RTX显卡发货前夕,已经有一些游戏为其提供支持,包括《最终幻想XR》、《杀手2》、《绝地求生大逃杀》和《古墓丽影:暗影》。
动态细节渲染
NVIDIA在发布会上还演示了充满几何图形的小行星带,画质非常令人惊艳,这次NVIDIA的CPU并没有向GPU传递渲染每个小行星的命令,而是列了一个画面中物体的清单,之后GPU中的数千个核心开始将清单中的物体进行处理、描绘和着色。这种CPU与GPU之间的交流方式大大减少了画面过于复杂而损失帧率的情况,从而支持渲染更复杂的场景。
演示视频中展示的技术也可以改变开发者们对LOD(细节级别)的设置,LOD的功能是定义场景中物体和纹理的间距,在游戏机中通常是用数字来设定,而在PC中,有低、中、高等级别可选。在游戏中选择最高级设定时,绿草、树、楼房等物体一直延伸到地平线都清晰可见,而在抵挡设定时,游戏中只渲染了小部分叶子,远处的建筑可能就会消失不见或者被低多边形组成的物体替代。
此外CPU与GPU交流时,也会传递细节层次的信息:开发者将制作许多高分辨率的物体,然后RTX GPU将不断扫描游戏中的场景,根据每个物体的大小来安排其出现的时间。这样的话,当高分辨率物体体积缩小到只占几个像素时,便会变成模糊的几何图形。这种技术刚好与上面提到过的动态着色原则相似,都通过降低不重要部分的分辨率,来提高GPU性能。
预示着更智能的计算方法
以上还不是NVIDIA在白皮书上提到的全部,这些提高性能的策略在接下来几年对游戏领域的重要性要超过光线追踪,虽然市场对其反馈目前还未知,但很有可能以现在的硬件来讲,实时光线追踪起不到太大的视觉修饰。而若使用DLSS和各种着色技巧,便可立刻提高这三款RTX显卡的性能,优势甚至可能超过NVIDIA所有GPU。
NVIDIA这种从软件入手,提高硬件性能的点子很了不起,目前人类开发的硅质芯片技术即将达到极限,即使每年显卡的功率都在不断提高,但是性能提高的速度已经越来越缓慢。
常常有人认为“云端”能够解决这一问题,诚然,在5G网络时代,将负荷从GPU转移不失为一个办法,但是数据中心设计师之前并没有接触过这么新的平台,所以可能也会遇到性能的限制。就像显示技术厂商渴望提高屏幕分辨率(尤其是AR/VR显示技术)一样,人类都有拥有更好产品的欲望,为此我们还是需要找到一个更智能的方法来渲染游戏。
如果没有NVIDIA为宣传新产品展示的AI技术和绘图流水线,光靠显卡很难实现8K游戏画面的实时渲染,当然这种新科技并不会只是NVIDIA的专利,未来希望AMD也能推出将AI负荷转移的GPU,或者微软和Khronos也可以将这些新点子与DirectX和Vulkan接口结合(NVIDIA为了实现这一点,也有将新型着色技术加入DirectX的计划)。
在未来,致力于游戏渲染技术的公司将推出更多节省功率的方法,届时这些方法将造福整个游戏领域。将RTX 2080 Ti以60FPS渲染为4K画质的技术,也可以用来支持第二代Switch,毕竟第一代Switch已经使用了NVIDIA的GPU,下一代产品如果能使用NVIDIA的张量核心,便可以大大减少需要着色的像素,或者运行SSAA(超级采样抗锯齿技术)来渲染低像素图像。另外,在几天前苹果在新品发布会上刚宣布新的iPhone A12 Bionic CPU将采用8个专注于运行AI的核心,可见这种越发智能的计算趋势将越来越明显,届时受益者将会是游戏。
(END)
推荐阅读
—— 青亭网