1前言 & 规格对比 & 外观赏析
写在开头
RTX40系显卡至今已经发布了三款,RTX4090与RTX4080这两张旗舰卡的性能有目共睹,不过高昂的售价确实令不少人望而却步。后续老黄虽然带来了RTX4070Ti,不过6499的售价也让囊中羞涩的玩家下不去手。这不为了让更多人能够用上最新黑科技,体验AdaLovelace架构与DLSS3,老黄终于发布了GeForceRTX4070显卡,4799元的起售价相比前面三位老大哥可以说是友好了许多,这无疑会吸引不少玩家关注。
而耕升作为深耕显卡市场30多年的老品牌,同时还是NVIDIA在国内重要的AIC合作伙伴,GeForceRTX4070的发布自然不能缺席。我们也在第一时间上手了最新的RTX4070显卡,这次我们测试的是耕升GeForceRTX4070星极皓月OC。雪白的外衣、强劲的性能、合理的售价,每一点都透露着这张显卡的“不简单”。下面就一同探索它的性能上限,究竟能给玩家带来怎样的惊喜。
*下文“耕升GeForceRTX4070星极皓月OC”简称为“耕升RTX4070星极皓月OC”
规格对比
在开始测试前,我们先了解一下耕升RTX4070星极皓月OC的配置,首当其冲的自然是显卡的“心脏”——AD104核心,在RTX4070Ti首发测试时我们知道,那上面搭载的才是完整版的AD104核心,而RTX4070上的这颗则是阉割版。
从下图可以看到,完整的AD104核心应该包括5个GPC(图形处理集群)、30个TPC(纹理处理集群)、60个SM(流式多处理器)以及一个带有6个32Bit显存控制器的256Bit显存带宽。
而RTX4070上的这颗AD104核心则只有4个GPC(图形处理集群),其中1个GPC也是经过阉割的、另外还有23个TPC(纹理处理集群)、46个SM(流式多处理器)以及一个带有6个32Bit显存控制器的256Bit显存带宽。二级缓存部分也与RTX4070Ti有细微差距,RTX4070Ti为48MB的二级缓存,而RTX4070则是36MB,不过相比起前代的RTX3070或RTX3070Ti的4MB二级缓存,可以是降维打击了。
除此之外,耕升RTX4070星极皓月OC上的这颗AD104核心被命名为AD104-250-A1,TSMC4N工艺制造,芯片面积为295平方毫米,虽然不及上代的面积大,但因为工艺制程的进步,耕升RTX4070星极皓月OC上的这颗AD104内塞下了更多的晶体管,足足有358亿之多,并且频率上也往前迈进了300MHz以上,可以说是全方位的领先。
其他参数也是堆料十足,5888个CUDA,46个第三代RTXCores,184个第四代TensorCores,并且用上了12GB的GDDR6X显存,相比上代的提升还是很明显的,大显存配合性能上的提升更可以为游戏以及创作者带来更好的使用体验。
外观赏析
耕升RTX4070星极皓月OC的外包装还是相当有特点的,正面满满当当的赛博朋克风。在包装的右下角标明了自己的身份GeForceRTX4070,而在左下角是型号星极皓月OC12GBGDDR6X。
包装盒的背面就相当简约了,不像正面那么“张牙舞爪”,更多的是介绍耕升的品牌理念与星极系列显卡的独特设计。
整个包装盒上最重要的当然是右上角标明的“支持三年质保以及个人送保“,展现了耕升对自家产品的信心,玩家可以放心购买。
拆开包装就能见到显卡本体了,包装盒内还附赠了“不用读“系列说明书、RGB同步线以及耕升定制的显卡支架。
初看耕升RTX4070星极皓月OC就被它的设计所惊艳到,身披雪色战甲配合银色的散热器,冷艳中显露出高贵的气息。纯白的设计风格给玩家带来全新视觉风格的同时,也给白色主题装机用户提供了新选择。
正面最抢眼的应该是三把散热风扇,每把风扇都达到了92mm的直径,甚至左右两边都已经撑过了外壳边界。每把散热风扇都配备了第二代耕升“炫风之刃”造形扇叶,特殊分叶型设计让风扇在相同的转速底下比传统扇叶拥有更大的风流量,进一步舒缓显卡温度,加强核心动态频率的提升幅度。
并且这三把散热风扇还是有小设计的,放大中间的风扇,可以发现其实它更像一只眼睛,四周还有一圈镂空做映衬,上面密密麻麻排满了大写的“G“字样,象征着耕升对性能的极致渴望。
显卡的背面是巨幅的白色金属背板,提高散热效能的同时也很好的保护了PCB板。背板上还印有“耕升“与”GEFORCERTX“,辨识度拉满。
穿透式散热设计也让显卡背面多了一丝美感,在金属背板的右方进一步加大积镂空间,配合散热器上第三组风扇的风流直接穿透散热鳍片以及镂空的PCB设计,令显卡温度进一步下降。
视角转到显卡顶部,熟悉的“GEFORCERTX“字样牢牢镶嵌在上,旁边是巨大的“耕升GAINWARD”Logo,不点亮时有着银色的反光,与雪白的机身相得益彰。
当你点亮显卡以后,这个“耕升GAINWARD”Logo开始熠熠生辉!跟定制的显卡支架一起搭配使用,两道RGB为显卡显著提升战力,带来全新的视觉享受。
显卡的两侧,一大排鳍片出风口贯穿始终,并且紧贴金属背板,多重散热加持,相信耕升RTX4070星极皓月OC在后续的测试中有不错的表现。
供电接口使用的是传统的8pin供电接口,放在一众RTX40系显卡中可以说是相当罕见了。不过以它的供电能力带动这张显卡还是绰绰有余的。
底部的显卡金手指为标准的PCIe4.0x16速率,拥有更快的传输速度,有利于显卡释放更强的性能。
IO挡板上是这款显卡的输出接口,从上往下依次是3个DP1.4a和HDMI2.1接口,可实现最高8K@60Hz的视频输出,并且最大支持4屏输出,如果你是一个多屏党,它绝对能够满足你的需求。
最后从这个角度看过去可以发现耕升RTX4070星极皓月OC比自家的老大哥要瘦了,52mm的厚度再也不是惊人的三槽厚度了,这个体积,小点的机箱也能容纳,组建一台性能小钢炮成为可能。
2显卡拆解
显卡拆解
见识完耕升RTX4070星极皓月OC的冷艳外观,下面让我们看看它的内部构造。想要拆解这张卡仅需卸下背板上的几颗螺丝即可。
首先引入眼帘的正是纯黑色的PCB,可以说这一代RTX40系显卡的集成度相当高,PCB的大小都控制得恰到好处,并且还用上了8层PCB设计,可以说电气性能相比以前有了长足的进步。
翻过背面看看,PCB上是密密麻麻的控制芯片与滤波用的MLCC,整齐有序的排列宛如一座雄伟的城池一般。
PCB的正中央就是备受瞩目的AD104-250-A1核心,虽然是阉割版,但还是蕴含了不小的能量。其采用TSMC4N工艺打造,295mm2的芯片面积内塞下了5888个CUDA核心。
核心四周是6颗GDDR6X显存颗粒,来自美光科技,型号是3DU47D8BZC,单颗显存容量为2GB,6颗显存共组成12GB,相比上代的RTX3070可以说是史诗级进步了。不过显存速率仅有21Gbps,相比大哥RTX4080略低。
耕升为这款显卡配备了10相供电,其中8相为核心供电,位置安排在PCB的左侧,每相供电都配上固态电容、封闭电感,以及DrMos芯片。
剩余2相则是显存供电,位置在GDDR6X显存附近,配置与核心供电一致,可以说相当豪华了。
无论是核心供电还是显存供电都采用了独立的DrMos芯片,来自安森美,型号是NCP302150,单颗持续输出电流为50A,足以带动AD104与GDDR6X显存这两个性能大户。
PWM供电芯片则被安排在PCB背面,型号为uP9512R,用于管理核心供电。
显存供电则由uP9529Q芯片负责。
背面还有一颗名为uS5650Q的芯片,其担任电压/电流/功耗监控的工作,是不可或缺的芯片之一。
PCB的底部就是PCIe金手指了,标准的PCIe4.0x16速率,使用前务必确保其接入主板上最高速率的PCIe插槽及开启主板ResizableBAR功能,这样显卡才能够满血释放。
再看看电源接口,我们熟悉的老朋友——8Pin接口,这个接口用在耕升RTX4070星极皓月OC上可以说是恰到好处。
看完了堆料配置,该看看这款显卡的散热如何了,耕升RTX4070星极皓月OC用上了RTX4070Ti的同款散热,因此笔者也对它的散热表现充满期待。
散热器的一端是大面积的均热板,耕升在均热板上为显存、电感、MOS管接触的地方用上了高系数的导热垫辅助散热,就连AD104核心处也是厚厚的一层硅脂,基本上把能堆料的地方都拉满了。
散热器另一边是大面积紧密的散热鳍片,能够更快的将显卡内部的热量导出,让显卡保持“冷静”,全力输出。
厚重的散热器内还藏了4根6mm的复合式热导管,贯穿整个散热器,还用上了抗氧化能力极强的镀镍工艺,延长使用寿命。
主动散热部分用的是3把92mm的散热风扇,说实话以这张显卡的功耗,再有TSMC4N工艺的加持,3把风扇可以把显卡吹感冒了!
风扇扇叶用的是经优化的耕升专用“炫风之刃”扇叶,改良后可以提升风流量,并减低声噪,有效加强散热,内外兼备。
3测试平台介绍 & 理论/游戏测试
测试平台介绍
首先介绍一下本次的测试平台,我们用上了评测室的最强硬件,CPU使用的是目前的旗舰——Inteli9-13900KS处理器,主板为ROGZ790HERO,搭配金士顿32GBDDR5-6000高规格内存,确保这张显卡能够释放全部性能。
测试平台方面我们已经祭出了目前地表最强的硬件,那拿来衬这张显卡的显示器自然也不能弱,用的依旧是天花板级别的AGONPD32M保时捷联名款,4K@144Hz的高刷,丝般顺滑畅享市面上的3A游戏。
测试前通过GPU-Z看看显卡的规格参数,产品名称中有“OC”字样代表显卡加速频率会比公版高一些,因此耕升RTX4070星极皓月OC显卡的加速频率为2580MHz,拥有5888个CUDA单元,12GBGDDR6X显存,192bit显存位宽。
另外,这张显卡的TGP设定给到了215W,温度墙也跟RTX4080为同一水平线的88℃,给极客玩家预留了充足的超频空间。
理论性能测试
国际惯例,我们先对耕升RTX4070星极皓月OC显卡进行理论性能测试,软件大家dou很熟悉了,就是Steam上最火爆的《3DMark》。
单从图中就可以看出这张显卡的性能就是爆杀上一代两张的70显卡,用一句话描述就是,在2K分辨率下,耕升RTX4070星极皓月OC的理论性能表现是RTX3070的1.3倍,约为RTX3070Ti的1.3倍。
再看看老黄引以为傲的光追项目,耕升RTX4070星极皓月OC在PortRoyal项目中突破1w分大关,领先前代的RTX3070Ti约3000分,提升幅度令人惊喜。可见新架构的革新不仅带来了性能的飞跃,光追也得到了很好的补全,相信这款显卡在光追游戏中的表现一定会给我们带来不一样的惊喜。
在GPGPU理论性能测试方面,拥有AdaLovalace架构的RTX40系列显卡在算力上也有出色的性能表现,尤其是单精度和双精度浮点运算上,提升幅度是最大的。整体性能是RTX3070Ti的1.4倍,对比RTX3070更是可以达到1.5倍之多。
游戏性能测试
游戏测试玩家们已经等很久了,事不宜迟马上开始,首先是常见的1080P分辨率,说实话多少有点看不起耕升RTX4070星极皓月OC了。实测结果来看,不少游戏都能稳定运行在150FPS以上,像《荒野大镖客2》这样优化比较好的游戏,仅需开启DLSS2,它就已经能够达到150+FPS。相比起20系的RTX2070Super,帧数几乎是翻倍的提升,即便是面对上一代的RTX3070或RTX3070Ti,耕升RTX4070星极皓月OC一样能够领先30FPS左右。
升级到游戏玩家更常用的2K高分辨率,耕升RTX4070星极皓月OC依旧乱杀,大部分游戏依旧有120FPS以上的水平,要知道这还是不开DLSS或者只开了DLSS2的水平,更不用说它还有黑科技DLSS3。看看热门的《地平线5》,这张显卡的帧数去到了149FPS,上代的两张70级显卡只有120FPS,当耕升RTX4070星极皓月OC已经能够2K高刷畅玩时,其他卡才刚到高刷的及格线,性能差距不言而喻。
总的来说,耕升RTX4070星极皓月OC完全对得起2K高帧游戏神卡的称号,游戏性能提升相当理想,领先上代RTX3070显卡约26%;尤其是随着分辨率的提升,部分光线追踪能力要求更高的游戏提升就越为明显。即使面对RTX4070Ti也不虚,性能差距仅有16%左右,从这一点来看,性价比显著。
4DLSS 3性能测试
DLSS 3性能测试
DLSS可以说是AI时代最具革命性的突破,随着DLSS的更新,现在已经发展到了3.0时代。全新的DLSS3技术不仅可以大幅提升帧率,还可以让系统延迟大大降低,生成的画面更是足以媲美甚至超越原始渲染的效果。我们也是准备了一系列的测试验证DLSS究竟有没有老黄说得那么神。
3DMarkDLSS3理论性能测试
老惯例,先测试一次理论性能,在3DMark的DLSS3测试中,耕升RTX4070星极皓月OC仅开启DLSS2的情况下就已经能够实现2K@120Hz,4K@60Hz的游戏体验了;如果开启DLSS3后,2K下帧数能够上升至130FPS,4K画质下也能勉强体验90Hz的高刷效果。
《光明记忆:无限》游戏实测
光有理论测试还不够,并且现在支持DLSS3的游戏已经有50多款,不实测怎么能见识到DLSS3的真实战力。我们选择了一款首发就支持DLSS3的国产游戏《光明记忆:无限》,这是一款FPS射击游戏。我们使用耕升RTX4070星极皓月OC进行测试,2K分辨率下新显卡的帧数相比前作高出了几十帧的差距,如果放在1080P画质下,领先幅度将继续加大到接近1倍的水平。值得一提的是不单止性能有飞跃,功耗还维持在低位,可以说是花小钱办大事的典范了。
这里也给大家看看游戏中DLSS3的实际表现,分辨率为2K,画质极高,DLSS模式为性能,可以看到即使是开启DLSS3后,游戏画面肉眼看去几乎没有画质损失,而游戏帧数却一直稳定在高位,可以说DLSS3让游戏体验达到了新的境界。
在其他几款游戏中也是如此,耕升RTX4070星极皓月OC在开启DLSS3后,游戏帧数相比RTX3070Ti都有60%-70%左右的提升,不少项目更是有翻倍的帧数提升,并且功耗都更低,用更低的功耗实现更强的性能,这才是玩家所乐见的。
DLSS3带来的另一优势是由于集成了NVIDIAReflex,因此开启DLSS3之后,将会带来更低的游戏延迟,对MOBA、大逃杀或FPS类游戏玩家来说,其意义也是非常重大的。
1080P分辨率DLSS性能测试
1080P的画质对在座的显卡几乎没有难度,这里的测试主要用来看DLSS3能否带来神秘加成。毫无疑问,开启DLSS3后的耕升RTX4070星极皓月OC犹如开了外挂一般,不少RTX3070或RTX3070Ti只能运行在100FPS出头的游戏,耕升RTX4070星极皓月OC直接抬到了200+FPS的水平。性能领先前代显卡70%以上,可见DLSS3真的有点东西。
2K分辨率DLSS性能测试
作为一张定位2K高帧的游戏显卡,耕升RTX4070星极皓月OC的表现果然不负众望,在DLSS2下,这款显卡已经超越了RTX3070Ti,开启DLSS3后,游戏性能更是飞跃,RTX3070跟RTX3070Ti只能望其项背,它的性能甚至一度超越了RTX3080!从表格数据就可以看出,开启DLSS3后,耕升RTX4070星极皓月OC的性能是RTX3070的243%,可想而知有DLSS3的介入,性能可以有多离谱。
我们也使用耕升RTX4070星极皓月OC在DLSS2和DLSS3两种模式下测试了多款游戏,从实测结果来看,DLSS3确实有点东西,不少游戏的帧数都有明显提升,其中不乏一些游戏有翻倍的性能提升。
更让人惊喜的是开启DLSS3后,游戏的1%Low帧也有提升,这也意味着你在玩游戏时更稳定更丝滑。想象一下,换装耕升RTX4070星极皓月OC后在2K画质下畅玩3A大作,电竞级的体验可以说是真的爽。
4K分辨率DLSS性能测试
虽然说这是一张定位2K100+FPS游戏级别的显卡,但耕升RTX4070星极皓月OC仍是具备一定的4K游戏能力,只要把DLSS3一开,或者是把游戏画质降低一些,游戏流畅度就直接上来了,跑个60+FPS不成问题。
5RTX VSR性能测试
RTX VSR性能测试
有些时候你是不是也会有这样的烦恼,那些480P甚至360P的早期视频清晰度不够,看起来不够清楚?现在这种烦恼将不再困扰你。NVIDIA带来了视频版的DLSS3!正是前不久发布的RTXVideoSuperResolution视频超分辨率技术(RTXVSR),通过AI技术即可提高浏览器内的视频的分辨率,展现前所未有的显示效果。
今天我们也测试了这项划时代的RTXVSR技术,在RTX30系和RTX40系的NVIDIA控制面板中找到视频图像设置,手动开启RTXVideoenhancement即可启用RTXVSR技术,其中分为1-4档调节,数字越大质量越好。
实测环节,可以看到在开启RTXVSR技术之后,原视频里的人物线条由原本的模糊不清变得十分清晰锐利,并且随着VSR级别的提高,清晰度逐级提升,甚至部分细节已经接近原生1080P了。
在暗部表现同样如此,原视频里地板如同劣质贴图,有VSR加持后每块砖头都清晰可见,且立体感满满,尤其是旁边绿色植被的清晰度更高了一个数量级。除此之外,RTXVSR技术的AI算法似乎还能够通过类似DLSS帧生成的方式计算出物体的远近关系优化景深效果,这一点同样能够使得画面整体观感得到提升。
这里我们也给大家准备了对比视频,从视频里就可以看到VSR的效果之明显,最高级别的VSR4跟原生480P相比就是一眼的区别,在开启RTXVSR技术后,部分图像质量有了显著提高,不仅锯齿和噪点几乎全部消失,颜色过渡也更为平滑,目前VSR能有这种表现堪称惊艳。
当然你除了在浏览器能够使用这项功能外,本地浏览器也能享受黑科技的魅力,VLC是目前首个支持RTXVSR技术的本地播放器,且能够支持多种视频格式播放。正式版也随着RTX4070显卡的解禁上线了,你硬盘里的老视频也能摇身一变成1080P了!
我们将浏览器中的视频与本地的视频同时进行RTXVSR4档渲染,从画面上看,右侧本地播放器的效果要弱于左侧浏览器的,浏览器上的4档VSR线条更锐利,画质也更清晰,不过即使是本地播放器的效果也要远强于原生480P,笔者猜测可能是目前本地浏览器的优化还不到位。
我们也将原生480P与浏览器和本地播放器上的VSR渲染视频进行对比,从视频画面中可以看到,本地播放器上4档VSR渲染过后,文字或线条都相比原生480P有一定提升,至少以前模糊不清的视频可以看了,不过对比浏览器的效果还略有差距,后者的效果已经接近原生1080P了。
有用户可能担心功耗的问题,在VSR开启最高档4档的情况下,耕升RTX4070星极皓月OC的功耗仅有24W左右,显卡利用率也远没有网络上传得那么高,在HWINFO64中可以看到显卡全程利用率不过25%。
总的来说,耕升RTX4070星极皓月OC上的RTXVSR技术将为玩家和视频观看者带来革命性的新体验!无论是性能上还是技术上的创新,都称得上是流媒体时代的革命!
6创作生产力 & NVIDIA编码器 & AI运算测试
创作性能测试
理论与游戏上的性能提升让笔者对耕升RTX4070星际皓月OC充满期待,在创作生产力上是否也是如此?我们选择PugetBench、PCMark10、ULProcyon等多款常见的测试软件,来测试这款显卡在日常办公、视频内容生产方面的表现。
从实测结果中可以看到,PCMark10Extended测试中,耕升RTX4070星极皓月OC在游戏这个子项目上对比前代的RTX3070与RTX3070Ti有明显的优势,领先幅度高达20%。这也跟上述游戏性能测试结果相符,可见游戏玩家这次真是捡到宝了,花更低的价格用更强的显卡。
创作生产力部分,这款显卡的表现也令人喜出望外,不单止超越前代显卡不少,甚至在达芬奇测试中还反杀了老大哥RTX4070Ti。提到达芬奇测试就不得不提这款显卡支持AV1编解码,这是一项新技术,有了AV1的加持后,耕升RTX4070星极皓月OC的性能相比RTX3070足足提升了38%,因此换装新显卡意味着在未来的创作生产中讲给你带来更极致的体验。
创作生产已经如此出色了,面向渲染、工业设计等专业生产又如何?一句话概括就是:强!很强!非常强!单是在Blender渲染软件中,耕升RTX4070星极皓月OC相比RTX3070就有50%的性能提升,就算是RTX3070Ti,它依旧领先45%以上。
再看看OC渲染器,性能领先可以用离谱来形容,耕升RTX4070星极皓月OC的渲染性能领先RTX3070Ti有50%之多,如果对比同代的RTX3070,差距将拉大到60%!这也意味着渲染同一段素材,换装耕升RTX4070星极皓月OC的你可以比别人快出接近一倍的速度,生产效率将极大的提高。
NVIDIA编码器测试
熟悉RTX40系显卡的玩家对NVIDIA编码器一定不陌生,它支持时下热门的AV1编码,作为下一代主流的视频编码技术有着自己独特的优势,更快的编码速度和更高质量的流媒体传输性能,让越来越多的剪辑软件和视频网站青睐于它,像我们熟悉的达芬奇、剪映、B站等已经支持AV1编解码,未来AV1将会成为一个新趋势。
我们使用NVIDIA提供的8K片源与工程文件分别测试AV1格式和H.265格式下的编码时间。实测同一段素材下,同样使用H.265编码,有编码器的加持下,耕升RTX4070星极皓月OC的效率比RTX3070快40%以上,如果使用AV1编码,那效率会比H.264快50%。
值得一提的是AV1编码不止导出速度更快,它的文件占用空间也比H.265要小,无论是4K分辨率还是8K分辨率,使用AV1编码后,文件整体大小能够降低25%以上。经过对比,AV1编码的视频在画质上与H.265也没有明显差距,可以说AV1对战H.265是全方位的领先,势必会成为下一个最受欢迎的格式。
AI运算能力测试
AI是目前备受关注的议题,AI作画、AI写稿、AI剪辑等各种应用如雨后春笋般接踵而至,不少玩家也想趁着这股东风,搭上AI的快速列车!那我们手上的耕升RTX4070星极皓月OC你一定不能错过,毕竟玩转AI可是老黄的拿手好戏。
我们对耕升RTX4070星极皓月OC显卡进行AI运算能力测试,在使用达芬奇AIACCELERATEDMAGICMASK测试时,可以看到它的完成时间为14秒,而前代的RTX3070则是21秒,你可能觉得时间差距不大,但项目一旦复杂起来,选用耕升RTX4070星极皓月OC会让你的效率快33%以上。
在另一款AI应用软件ON1ResizeAI2023中,使用AI将多张图片提升200%分辨率,此时耕升RTX4070星极皓月OC的速度为10秒一张,而上代的RTX3070和RTX3070Ti均为12秒,即使对比RTX4070Ti,耕升RTX4070星极皓月OC也只慢了2秒而已。
而在最近大火的AI作画中,耕升RTX4070星极皓月OC更是大放异彩。我们用StableDiffusion生成50张768x768的图片进行测试,从生成时间上就可以看到耕升RTX4070星极皓月OC的强势,前代的RTX3070Ti生成50张图需要接近3分钟的时间,而前者只需要2分11秒!
另外在测试中还有一个值得关注的地方就是显存占用,基本上RTX20系跟RTX30系的几张显卡在测试时显存占用都达到了7.6G以上,虽然我们手头上的耕升RTX4070星极皓月OC显存占用也有7G以上,不过得益于12GB大显存,因此在生成速度上有明显优势,所以大家在玩这个软件的时候应该是显卡显存越高越好,选择耕升RTX4070星极皓月OC就是你高性价比兼高性能的选择。
7功耗 & 超频 & 评测总结
功耗与发热
上面提到以RTX4070的体量,散热风扇完全用不上三把,所以我们也对耕升RTX4070星极皓月OC进行了功耗和发热测试。
在室温25℃的情况下,使用Furmark单烤15分钟后,耕升RTX4070星极皓月OC的GPU核心运行在2655MHz以上的高频,但此时核心温度仅有61℃,显存更是仅有50℃出头。并且此时它的功耗和噪音控制也相当优秀,烤机15分钟,最高功耗仅有215W,上一张做到这个功耗的显卡是RTX2070Super,可以说30系显卡在耕升RTX4070星极皓月OC面前完全没有胜算。
TSMC4N工艺与新架构给大家带来了一点点小震撼,我们进一步做了更深入的测试。利用HWINFO64软件与FrameView软件双重记录多款显卡的功耗表现情况,从图中可以看到耕升RTX4070星极皓月OC整体功耗控制相当出色,在所有测试场景内近乎都是维持在200W左右,用RTX2070Super一样的功耗,但性能却已经实现全方位的领先!
实测下来,不禁感慨RTX40系显卡确实有点东西,耕升RTX4070星极皓月OC无论是性能表现、温度控制甚至是能耗比都可以说是N卡的新高度,相比前代的RTX30系还是初代光追显卡20系都是一次降维打击。
超频能力测试
众所周知,耕升RTX4070星极皓月OC是一张带”OC”后缀的显卡,那笔者自然是不会放过这个超频的机会,下面一同看看这款显卡的超频潜力究竟有多大吧。
这里我们使用经典的小飞机进行显卡超频,首先当然还是对这张显卡有个基本的性能了解。耕升RTX4070星极皓月OC在默频状态下TimeSpy得分18213分。
紧接着我们小超一下,核心先超频250MHz,显存超500MHz,没想到仅仅超频250MHz后,TimeSpy得分就已经19057分,接近2W分大关了,此时耕升RTX4070星极皓月OC在测试中的核心频率也已经有3000MHz了,相比默频时最高的2790MHz刚好提升了200多MHz左右。
继续加码,我最后将耕升RTX4070星极皓月OC的频率定格在核心和显存分别提升了280MHz和1500MHz。此时在TimeSpy测试中,显卡的核心频率已经上到了3015MHz,在频率上甚至比RTX4070Ti还要再强一些,当然频率的提升带来的是性能的增强,测试总分也来到了19413,相比默频的18213分,提升近1200分,能力可见一斑。
评测总结
测试完这张耕升GeForceRTX4070星极皓月OC,感叹游戏发烧友终于等来了最值得选购的一张RTX40系显卡。见过RTX40系显卡的玩家应该都会被其中的黑科技所折服,这张新显卡不仅继承了AdaLovelace架构、DLSS3等,还带来了全新的RTXVSR等极具生产力的功能,让新显卡不仅有着超常的性能、超低的功耗,还有超越的技术,满满的亮点带给玩家最大的惊喜。
说回耕升GeForceRTX4070星极皓月OC,这张显卡最吸睛的应该是它的颜值。白色冷艳的外观设计无疑是一众显卡中独具一格的存在。纯白的金属外壳与正面镂空的眼睛设计别有一番韵味,黑与白的相互碰撞,擦出了惊艳的火花,让游戏玩家也能感受“科技美学”的力量。老实说,初看它的第一眼,就被深深吸引,相信这样的外观也能俘获玩家的心。
性能方面自不必多说,AD104核心的战力大家有目共睹!耕升GeForceRTX4070星极皓月OC的表现可以说是完胜RTX3070Ti,甚至对比RTX3080都有不小的优势。性能飙升的同时,功耗还维持在RTX2070Super的水平,可以说遥遥领先于30系显卡。游戏性能更是惊艳,DLSS3的加持下,2K100+FPS感受细腻画质与丝滑体验,即使4K下,有了DLSS3也有一战之力。
最后再聊聊耕升GeForceRTX4070星极皓月OC显卡的售价,作为一款兼具颜值与性能的中端旗舰,显然是众多游戏发烧友的首选。5099元的售价也让这款显卡相比起老大哥们更为“亲民”,性价比十足。目前耕升GeForceRTX4070星极皓月OC已在各大电商平台开售,手持旧显卡的玩家不妨趁这个机会入手新显卡,感受最新科技带来的极致体验。
8Ada Lovelace架构解析
Ada Lovelace架构讲解
Turing、Ampere上两代架构核心均以人物来命名,前者是计算机科学之父——艾伦·麦席森·图灵;后者则是“电学中的牛顿”——安德烈·玛丽·安培,电流的国际单位安培就是以其姓氏命名。那AdaLovelace定非凡人,度娘一下果然,这是 人称“数字女王”的阿达·洛芙莱斯,编写了历史上首款电脑程序,是被世界公认的第一位计算机程序员,果真是一代比一代还要更牛。PS:她的父亲是《唐璜》的作者,诗人拜伦。
从Turing架构开始,NVIDIA首次在显卡中加入了加速光线追踪的RTCore单元,以及面向AI推理的TensorCore单元,这革命性的创新使实时光线追踪成为可能。而Ampere架构则是全面的架构改进,在加入新一代的二代RTCore和三代TensorCore基础上,还有着更先进的SM单元设计,这样显卡工作效率那是翻倍的提升。而来到AdaLovelace架构,同时是以效率提升为大前提,自然是引入了最新的第三代RTCores与第四代TensorCores单元,同时加入众多新颖的黑科技,从执行效率来说AdaLovelace架构是上代Ampere架构的2倍以上,甚至光线追踪能力更是达到了恐怖的4倍性能。
全新的SM流式多处理器
AdaLovelace架构中最大的亮点之一:全新的SM流式多处理器,每个SM包含了128个CUDA核心、1个第三代的RTCores,4个第四代TensorCores(张量核心)、4个TextureUnits(纹理单元)、256KBRegisterFile(寄存器堆),以及128KBL1数据缓存/共享内存子系统,于是这一个全新的SM单元有着超过上一代2倍之的性能表现。
过去的Turing架构INT32计算单元与FP32数量是一致的,而两者相加才组成了64个CUDA核心。但是Ampere架构开始,左侧的计算单元实现了FP32+INT32的计算单元并发执行,也就是说CUDA核心数量翻倍到了128个。
再来看看AdaLovelace架构的SM,FP32/INT32的计算单元组合,同样实现了每个SM内含128个CUDA的设计,看似提升不大,但是当你了解到GeForceRTX4070拥有46个SM,5888个CUDA核心,那你也就应该明白它的着色器能力进一步加强,跟上一代的RTX3070相比,虽然是同样的CUDA核心,但得益于新架构的优势,完全可以说是遥遥领先。
另外缓存方面AdaLovelace架构也进行了大规格的提升,首先每个SM单元中单独配上了128KB的缓存,其次核心的二级缓存进行进行了重新的设计,使得RTX4070配备了36MB二级缓存,相比RTX3070可以说是质的飞跃,足足提升了9倍之多。
9技术讲解:第三代RTX Cores与第四代Tensor Cores
技术讲解:第三代 RTX Cores 与 第四代 Tensor Cores
以为刚才的CUDA数量与超大L2缓存就已经很猛了,实现上AdaLovelace架构最大的提升还是在第三代RTXCores与第四代TensorCores身上。
第三代RTXCores
RTXCores用于光线追踪加速,第三代RTXCores的有效光线追踪计算能力达到191TFLOPS,是上一代产品2.8倍。
在Ampere架构中,第二代RTCores支持边界交叉测试(BoxIntersectiontesting)和三角形交叉测试(TriangleIntersectiontesting),用于加速BVH遍历和执行射线三角交叉测试计算,虽然光线追踪处理能力已经比初代的Turing架构核心更高效,但是随着环境和物体的几何复杂性持续增加,传统的处理方式很难再以更高效率、正确反应出的现实世界中的光线,尤其是光的运动准确性。
所以在第三代RTXCores增加了两个重要硬件单元:OpacityMicromapEngine与DisplacedMicro-MeshesEngine引擎。OpacityMicromapEngine,主要是用于alpha通道的加速,可以将alpha测试几何体的光线追踪速度提高2倍。
在传统光栅渲染中,开发人员使用一些Alpha通道的素材来实现更高效的画面渲染,例如Alpha通道的叶子或火焰等复杂形状的物体。但在光线追踪时代,这传统的做法会为光线追踪带为不少无效的计算,例如运动性的光线多次通过一块叶子,光线每击中一次叶子,都会调用一次着色器来确定如何处理相交,这时就会做成严重的执行成本与时间等待成本。
而OpacityMicromapEngine用于直接解析具有非不透明度光线交集的不透明度状态
三角形。根据Alpha通道的不透明,透明与未知等三个不同的块状态进行处理:透明则直接忽略继续找下一个,不透明块则记录并告之命中,而未知的则交给着色器来确定如何处理,这样GPU很大部分都不需要进行着色器的调试处理,能够实现更为高效的性能。
DisplacedMicro-MeshesEngine
如果说OpacityMicromapEngine加速的是面处理,那么DisplacedMicro-MeshesEngine就是几何曲面细节的加速器。如上图所示,在AdaLovelace架构中,通过1个基底三角形+位移地图,就可以创建出一个高度详细的几何网格,所需要资源占用比二代RTXCores更低,效率也更高。
通过NVIDIA给出的创建14:1珊瑚蟹例子来说事,这里我们需要需要1.7万个微网格、160万个微三角形,在AdaLovelace架构中BVH创建速度可加快7.6倍,存储空间缩小8.1倍。DisplacedMicro-MeshesEngine起到了关键性的作用,其将一个几何物体根据不同细节分成密度不一的微网络处理,红色密度超高,细节处理越为复杂。相应的低密度微网络区域则可以释放更多的资源与存储空间,这样DisplacedMicro-MeshesEngine就可以帮助BVH加速过程,减少构建时间和存储成本。
同时AdaLovelace架构SM中新增了着色器执行重排序(ShaderExecutionReordering,SER),这是由于光线追踪不再只有强光或者阴影渲染处理,未来将会更多的是在光线的运动性,这样光线就会变得越来越复杂,想要第三代RTXCores与第四代TensorCores有着更高的执行效率,那就得为他们来安排一位管家。而着色器执行重排序(SER)就是为了能够即时重新安排着色器负载来提高执行效率,为光线追踪提供2倍的加速,也能更好地利用GPU资源。不过目前仍未有实例,想实现这个功能,还得游戏与开发工具的支持才行。
第四代TensorCores
TensorCores是专门为执行张量/矩阵运算而设计的专用执行单元,这些运算是深度学习中使用的核心计算功能。第四代TensorCores新增FP8引擎,具有高达1.32petaflops的张量处理性能,超过上一代的5倍。
10技术讲解:DLSS 3
技术讲解:DLSS 3
或者说第四代TensorCores太硬核你不会知道是啥?提升意义在哪?但是TensorCores最经典的应用DLSS你肯定会知道,这一次AdaLovelace架构支持NVIDIA最新的DLSS3技术。
之前我们也聊过DLSS技术,其设计之初是为了弥补光线追踪技术后的性能损失,具体的表现为开启光线追踪技术后游戏帧数大幅度的下降,甚至很难保证游戏流畅的运行。于是DLSS使用低分辨率内容作为输入并运用AI技术输出高分辨率帧,从而提升光线追踪的性能。
在DLSS3中包含了三项技术:DLSS帧生成、DLSS超分辨率(也称为DLSS2)和NVIDIAReflex。你可以理解为DLSS3是在DLSS2的基础上,新增了DLSS帧生成技术;而后两技术中,DLSS超分辨率只需要GeForceRTX显卡都能使用上,NVIDIAReflex则是GeForce900系列以后的显卡都用使用上。
想实现DLSS帧生成可不简单,这需要配合上AdaLovelace架构的GeForceRTX40系列显卡才行。DLSS帧生成技术原理是:利用AI技术生成更多帧,以此提升性能。DLSS会借助GeForceRTX40系列GPU所搭载的全新光流加速器分析连续帧和运动数据,进而创建其他高质量帧,同时不会影响图像质量和响应速度。
从Ampere架构开始,NVIDIA显卡就已经支持了光流加速器,而AdaLovelace架构的光流加速器升级到了第二代,其提供了高达300TeraOPS(TOPS),比安培架构的初代光流加速器(OpticalFlowAcceleration,OFA)快2倍以上。为了实现DLSS帧生成,OFA扮演了重要的角色,其配合上新的运行矢量分析算法在DLSS3技术框架内实现精确和高性能的帧生成能力。
另外,由于DLSS帧生成是在GPU上作为后处理执行的,那么即使在游戏受到CPU性能限制的时候,我们同样能够从中获得更好的游戏性能提升。尤其是那种物理计算密集型的游戏或大型场景游戏,DLSS2均可以让GeForceRTX40系列显卡以高达两倍于CPU可计算的性能来渲染游戏。
最后由于DLSS3是建立在DLSS2基础之上的,游戏开发者可以在已支持DLSS2或NVIDIAStreamline的现有游戏中快速集成该功能,所以DLSS3已在游戏生态得到广泛应用,目前已有超过35款游戏和应用即将支持该技术。
阅读小亮点:NVIDIAReflex
NVIDIAReflex也是DLSS3其中的一环,它可以使GPU和CPU同步,确保最佳响应速度和低系统延迟。
想要实现端对端的最低延迟,你需要确保游戏、显示器以及鼠标三者都同时支持并开启了Reflex技术。
当GeForceRTX40系列显卡和NVIDIAReflex搭配上后,直接达到1440p分辨率360FPS的体验,这着实是性能有点强劲了。
在GTC2022大会时已经透露将会还有4款1440p分辨率的新型G-SYNC电竞显示器将要发布,包括采用mini-LED技术的AOCAG274QGM–AGONPROMiniLED、MSIMEG271QMiniLED和ViewSonicXG272G-2KMiniLED三款显示器刷新率均为300Hz,而最猛的是ASUSROGSwift360HzPG27AQN,刷新率直接来到了360Hz。
但唯一一个问题就在于,部分显示器厂商认为此类产品受众人群较少,会降低此类显示器的产能,甚至产品就已经被内部PASS掉,所以1440p360Hz是很美好,但现实也是相当的骨感。
11技术讲解:NVIDIA编码器
技术讲解:NVIDIA编码器
GeForceRTX40系列显卡还有一个全新的升级,那就是编码器NVENC。第八代的NVENC编码器不仅支持H.264与H.265,还支持开放式视频编码格式AV1。
而由于AV1是一种免版税的视频编码格式,上游软件厂商与下游戏的配套端都在大力推广此编码格式,我们也会看到越来越多的硬件与软件支持AV1格式,包括剪映专业版、DaVinciResolve、以及AdobePremierePro较为流行的Voukoder插件均支持,且均可通过编码预设使用编码器,这样我们等待视频导出的时间缩短将近一半。
不单是视频制作软件,AV1格式也将会是主播、游戏直播UP主们的新宠儿,在保证画面最高质量的情况下,AV1编码器可将效率提高40%,同时显卡的占用也更低。包括OBSStudio一代软件中也会增加AV1格式的支持。另外我们还能通过GeForceExperience和OBSStudio录制高达8K60的内容,这样我们做游戏录制也会变得更为轻松。
包括我们之后测试时使用的游戏内录视频都是支持AV1格式,同时编码器NVENC在资源占用和适配上做得越来越好。