NVIDIA GeForce RTX 4070 Ti首发评测:干翻昔日王者,性价比拉满!

- 编辑:admin - 点击数:861

NVIDIA GeForce RTX 4070 Ti首发评测:干翻昔日王者,性价比拉满!

就在昨晚CES2023特别演讲上,NVIDIA正式对外公布了NVIDIAGeForceRTX4070Ti,这可能是GeForceRTX历届中最快一次推出Ti系列性能产品。

在这个时间点上,2K高刷电竞显示器和支持光线追踪的游戏也进入了井喷时期。特别是仅四年的发展,支持RTXON的游戏数量超过250个,平均下来以每年60个以上速度增长,而且只会越来越快。

这一次,显然是要解决在在最高光线追踪画质下流畅运行高分辨率游戏的问题了,RTX4070Ti的实际表现如何?现在就让我们以七彩虹战斧GeForceRTX4070Ti为例,奉上NVIDIAGeForceRTX4070Ti首发评测。

带着野心的完整AD104

在过往的GeForceRTX更新中,核心型号通常以双数交替进行,比如RTX20系列的TU102、TU104,RTX30系列的GA102、GA104。AdaLovelace架构的命名规则打破了这个传统,AD102交给了GeForceRTX4090,AD103交给GeForceRTX408016GB,GeForceRTX4070Ti则拥有了AD104。

如果按照前两代的命名逻辑,AD104应该紧跟AD102之后,并通过细分版本对不同定位的显卡进行区分。也因为如此,GeForceRTX4070Ti在最初被赋予GeForceRTX408012GB变得有理有据,导致了与GeForceRTX408016GB命名冲突,在营销上具有迷惑性。

回归正题。AD104-400-A1是GeForceRTX4070Ti的型号,作为AD104的首款消费产品,也同样保留了AD102和AD103上的所有主要功能,包括台积电4N定制工艺,第三代RTCore,第四代TensorCore以及大量围绕新核心构建的新技术。

按照传统,AdaLovelace架构GPU中包含了若干个GPC(GraphicsProcessingClusters,图形处理集群),GPC下包含若干个TPC(TextureProcessingClusters,纹理处理簇),再往下就是SM、CUDA、RTCore、TensorCore等等。每个GPC之间包含的TPC数量相等,当GPU进行定位区分的时候再进行GPC、TPC的物理屏蔽实现。

相比AD103核心的不规则分配,AD104更好理解。完整的AD104包含5个GPC,每个GPC包含6组TPC,每组TPC包含2个流式多处理器(StreamingMultiprocessors,SM)。

SM是可以看成诸多核心的集合体,从Maxwell架构开始引入了处理块(Sub-Core)概念。每个SM包含4个处理块,每个处理块包含1个64KB寄存器堆,1个L0指令缓存,1个Warp调度器,1个调度单元,4个加载/存储单元,1个特殊功能单元(SpecialFunctionUnit,SFU)用于执行超越函数指令(比如正弦、余弦、倒数、平方根等)和图形差值算法指令。每个SM下的128个CUDACore随处理快分成4组,每组CUDA由16个专门用于FP32的CUDACore,16个可以在FP32和INT32之间切换的CUDACore组成。

此外,每个SM下均包含4个第四代TensorCore,1个第三代RTCore,成为后续游戏实时光线追踪和DLSS3性能提升的重要前提。

重点来了,GeForceRTX4070Ti上的AD104-400-A1仅在用于内容创作NVENC和NVDNC上有略微删减,其余元素与完整AD104看齐。也因为如此,GeForceRTX4070Ti拥有完整的5个GPC、30组TPC、60组SM,以及6个32-bit内存控制器组成的192-bit内存接口。整个芯片包含358亿个晶体管,7680个CUDACore,60个第三代RTCore,240个TensorCore,240个纹理单元和80个ROPs。同时还包含7,680KB一级缓存,15,360KB寄存器堆,以及49,152KB二级缓存,并搭配192-bit12GBGDDR6X。

值得注意,GeForceRTX4070Ti的二级缓存是GeForceRTX3070Ti的12倍有余,是RTX3080的8倍有余,成为光线追踪性能发挥的重要基础。

战斧GeForceRTX4070Ti豪华版:强力的原教旨

由于策略变化突然,GeForceRTX4070Ti暂时没有FoundersEdition公版,但不妨碍头部AIC厂商在第一时间推出标准版和OC超频显卡,七彩虹战斧GeForceRTX4070Ti豪华版就是很好的例子。特别是七彩虹能赶在疫情影响到物流之前,将显卡交到我们手中,可见其反应迅速。

七彩虹战斧GeForceRTX4070Ti豪华版遵循公版加强的原则,基础频率为2310MHz,Boost频率可以达到2610MHz,TDP285W,供电相数为10+2,输出接口包括3个和1个接口。

战斧系列最大的特点之一就是对散热模组的进一步加强,使用了三槽设计的超大散热模组,并覆盖经典钻石状元素以及红黑撞色装甲,散热面板简约且有力。

三槽设计带来的好处是侧面的散热空间增加不少,配合装甲背后的镂空设计,做到更快的释放热量,同时也很好的控制了散热模组的长度,方便其更好的装到机箱内。

给散热模组提供主动散热的是3个98mm直径风扇,热管则使用了6*Φ6设计,并使用了“回流焊”工艺确保热管与鳍片间紧密相连。你会发现虽然战斧系列虽然在装饰外壳上差别不大,但内部热管直径、数量,以及是否使用真空冰片冷凝液技术,都会有一定差别,也从侧面证明了GeForceRTX4070Ti的满负荷散热要求要明显低于RTX4080和RTX4090。

因此给战斧GeForceRTX4070Ti豪华版供电配套的是一条双8pin转16pin的电源转换线,当然如果你是电源或者手头有3个以上的8pin转16pin的转换线也可以使用,在实际状态下不会影响到显卡发挥。

这里值得说明TGP功耗反应的是GPU运行功耗上限,也就是功耗墙。实际上GPUBoost表现是由功耗、散热情况、负载等多重因素决定,即使GPUBoost到最大频率也未必接近TGP值。事实上无论是GeForceRTX4090还是GeForceRTX4080运行4K分辨率画面时能耗也低于TGP值,2K和1080P分辨率更是如此。

因此在测试过程中我们也对战斧GeForceRTX4070Ti豪华版1080p、2K分辨率最高画质的功耗检测进行比较,得到的参考如下,可见战斧GeForceRTX4070Ti豪华版的散热模组起到了不错的作用。

于此同时,显卡在压力测试状态中红外线检测外部表现如下,整个过程GPU核心最高温度68℃,在室温20℃的情况下,战斧GeForceRTX4070Ti豪华版保持足够清凉的温度,反倒是主板发热量更为抢眼。

带着光追大步向前

现在让我们把目光放GeForceRTX4070Ti的性能提升上。如果对RTX40系列略有了解的同学,会发现新一代GPU性能提升除了归功于新制程、更大的缓存设计之外,还将最重要的RTCore和TensorCore分别升级到了第三代和第四代。

其中第三代RTCore在第二代RTCore的基础上,再次将射线/三角形求交测试吞吐量。意味着射线/三角形求交测试模块由原来的2个再次增加到4个,相对Turing架构的1个射线/三角形求交测试模块翻了4倍,并额外增加了下图左下角的透明度微图引擎(OpacityMicro-Map,OMM)和右下角的位移式微型网面引擎(DisplacedMicro-Mesh,DMM)。

同时第三代RTCore还引入了着色器执行重排序(ShaderExecutionReordering,SER)技术,通过与游戏设计团队配合,更有效的分配次级射线的排序权重,从而获得更高效的线程排序执行,避免光追运算陷入无意义的次级射线运算深渊。

第四代TensorCore在效率提升的同时,更进一步与DLSS3、光流加速器强绑定,避免了CPU性能跟不上GPU所导致帧率的损失,同时还原生支持Reflex技术避免AI生成的帧率影响系统响应速度。

在测试之前,照例先搬出我们的测试平台,这里为了确保GeForceRTX4070Ti性能完全释放,这里使用了英特尔Corei9-13900K,七彩虹ColorfulCNVDDR5-600016GBx2,ROGMAXIMUSZ790HERO,ThermaltakeTPIRGBPLUS1250W作为基准,同时也引入GeForceRTX3090、GeForceRTX3070Ti、GeForceRTX4080等GPU作为对比,方便大家参考。

在基础性能测试中,惯例引入检测DirectX11和DirectX12的3DMarkTimeSpy,3DMarkTimeSpyExtreme,3DMarkFireStrikeExtreme,3DMarkFireStrikeUltra,PortRoyal和VRMarkBlueRoom进行检测。

可以看到常规测试中GeForceRTX4070Ti相对GeForceRTX3090提升有12%左右提升,相对RTX3070Ti提升平均提升幅度更是超过50%。

这里我们也搬出了几个喜闻乐见的3A游戏进行对比,这里主要使用4K分辨率光追最高画质,以及《地铁:离乡》的1080p最高画质作为参考。能够看到GeForceRTX4070Ti相对GeForceRTX3090提升在10%左右,相对GeForceRTX3070Ti提升将近100%,甚至在《古墓丽影:暗影》中获得了160%以上的提升。

2K分辨率轻松突破100FPS

如前面所言,GeForceRTX4070Ti所采用的第四代TensorCore性能提升幅度巨大,包括的FP16、BF16、TF32、INT8、INT4性能相对前一代提升两倍以上,并支持商业HopperGPU架构中出现的FP8TransformerEngine。

而TensorCore所支撑的DLSS本质上是一种卷积自编码器,在时代,通过AI模型训练分析当前与过去的帧,最终通过深度学习算法将将单帧的低分辨率提升成高分辨率。但到了DLSS3,这个过程发生了翻天覆地的改变,DLSS3不再是一项单一的技术,而变成一整套确保游戏高效运行的解决方案。

DLSS3引入了一套光流加速器(OpticalFlowAcceleration,OFA)与DLSS相结合的办法,构建出了一个更为立体的分析方式,将卷积自编码器的输入源扩展到几个部分,分别是:之前帧与当下帧,由光流加速器生成的光流场、游戏运动矢量和深度等数据。这时候DLSS3甚至承担起渲染过程中7/8的工作,让CPU和GPU进完成其中1/8的渲染即可,从而节省出大量的计算资源专注到更有用的地方。

这意味着游戏一旦支持DLSS3,那么效率将是成倍的提升。但也需要注意,DLSS3运行的前提是GeForceRTX40的第四代TensorCore,第三代以及第三代以前TensorCore仅能支持到,即实现DLSS3的部分功能,帧率提升虽然也很明显,但幅度没有DLSS3来得更为夸张。

NVIDIA GeForce RTX 4070 Ti首发评测:干翻昔日王者,性价比拉满!

这里我们引入3DMarkDLSS22K、3DMarkDLSS34K、3DMarkDLSS38K进行对比,可以看到GeForceRTX4070Ti相对RTX3090提升了50%到70%,特别是RTX4070Ti在8K分辨率触及60FPS的水准,相对GeForceRTX3070Ti提升了将近600%。

最后让我们进入2K分辨率游戏测试环节,在RTX4070Ti与RTX3070Ti的较量中,能够看到DLSS3一旦开启,平均性能在50%到80%的提升,部分场景更是直接从不能玩到了流畅运行的级别,比如《传送门》RTX版提升了200%。

再来对比RTX3090,在DLSS开启后,RTX4070Ti相对RTX3090平均提升也超过了30%,这同样也意味着RTX4070Ti在2K游戏中的实际表现同样也优于RTX3090Ti。

另外前面提到,AI生成帧率过多,会造成鼠标键盘所产生的关键操作被排列到渲染队列后方,造成过长的系统响应延迟。因此DLSS3本身就融入了对NVIDIAReflex的支持,并且Reflex技术本身还会扩展支持到GeForceGTX900系列以后的GPU。

用NVIDIAStudio打开局面

GTC发布会在推出GeForceRTX40系列GPU的同时,还围绕NVIDIAStudio内容创意做出了不少大幅度的改进,RTXRemix所支持的MOD游戏魔改工具就是其中之一。如果你有听说过前阵子刚刚发布且免费下载的《传送门RTX》,在全景光线追踪特效全开的情况下秒变显卡杀手,请毋庸置疑,这就是NVIDIA游戏创意团队在《我的世界RTX》和《雷神之锤2RTX》之后又一个火力全开的作品。

早年MOD游戏需要反编译、破解、素材逐一替换、解决奇异Bug等复杂操作,就连《雷神之锤2RTX》也耗费了NVIDIA工程师、美工、QA组成专门的游戏研发团队用数个月时间完成。

而相比前两作,《传送门RTX》的光线追踪重置就轻松很多了。因为RTXRemix来自于NVIDIAStudio的元宇宙平台NVIDIAOmniverse进行开发,通过NVIDIAStudio整合AI纹理工具、光线追踪、DLSS3以及Omniverse平台协作,快速绕过了游戏反编译、提取素材的过程,让创作者全身心投入到游戏场景的翻新与二次开发中。

NVIDIAStudio强大的软硬件平台正是打开内容创作的钥匙,对于大多数消费者、内容创作爱好者、UP主而言,GeForceRTX系列就是高性价比的理想选择。GeForceRTX4070Ti无疑非常符合内容创作的各项需求,特别是性能提升后的12GBGDDR6X的效率也让GeForceRTX4070Ti更进一步。

这里我们先使用作为测试基准,在Monster、Junkshop、Classroom三个场景中,可以看到GeForceRTX4070Ti相对GeForceRTX3090性能提升20%以上,仅在Junkshop场景持平。而相对RTX3070Ti更是提升80%到107%不等。

在V-Ray5Benchmark中会分别考验CUDA和光线追踪性能,GeForceRTX4070Ti相对GeForceRTX3080Ti提升了40%左右。

OctaneRerRTX则是测试GPU的光线追踪性能表现的另一个参考,OctaneRer在近些年逐渐受到内容创作者热捧,利用GPU替代CPU加速大幅缩减了渲染过程,让创作者专注于内容的探索。在测试的四个场景中,主要考验GPU每秒产生的样本率,GeForceRTX4070Ti相对GeForceRTX3090提升7%,相对RTX3070Ti提升了60%。

另外难能可贵的是,依照NVIDIA对GeForceRTX40系列12GB显存以上的GPU采用双AV1编码器的策略,GeForceRTX4070Ti同样具备NVIDIA双AV1编码器。AV1编码是由英特尔、微软、亚马逊、谷歌、网飞等网络巨头组成的开放多媒体联盟AOMedia所推出的免费编码格式,在国内已经获得了哔哩哔哩、爱奇艺支持。

在好莱坞拥有统治地位的DaVinciResolve18是率先支持AV1编解码专业软件之一,因此也提供了对GeForceRTX4070Ti的编解码支持。基本上,我们在电影院线看到的大成本特效制作、剪辑、调色有很多都来自于DaVinciResolve。

顺带我们也利用ON1ResizeAI2022对低分辨率图片无损提升至高分辨率图片进行测试,可以看到GeForceRTX4070Ti相对GeForceRTX4030Ti效率提升将近40%。

SPECviewperf2020则是通过建模对象或渲染体的旋转和缩放检视,来检测在各种专业设计领域(包含能源勘探、医学、建筑设计、机械设计、汽车设计、飞机设计等各种领域)的图形性能,这里包含了我们从大学专业软件课开始就接触的3dsmax、Catia、Creo、Energy、Maya、Medical、SNX、Solidworks等主流软件。GeForceRTX4070Ti在部分场景中与GeForceRTX3090Ti持平,部分场景则提升了20%的性能,相对GeForceRTX3070Ti更是提升40%到100%。

最后少不了常用的AdobePhotoshop、Lightroom测试,这里我们引入ProcyonPhotoshopEditing作为比较,GeForceRTX4070Ti比RTX3090提升8%,相比RTX3070Ti提升12%。

写在最后

NVIDIAGeForceRTX4070Ti给了我们不曾想象过的情况,在不到300W实际功耗的情况下,2K分辨率开启光追最高画质的实际游戏表现已经超过GeForceRTX3090Ti,把2K最高画质的3A大作全线提升至100FPS以上。并以6499元定价和更低的功耗,完成了对曾经旗舰显卡的超越。

唯独可惜GeForceRTX4070Ti并没有推出FoundersEdition版本帮助玩家充值一波原厂卡信仰。但眼前的七彩虹战斧GeForceRTX4070Ti就已经在散热、性能和细节设计上给予了很好的表现。如果大半年前你还在垂延RTX3090Ti的性能,那么现在不要犹豫,只需要一半的价格,就能够实现自己游戏和创作的梦想了。

你会喜欢下面的文章? You'll like the following article.