令人期待的Radeon HD 5800系列終於推出,它帶來了史上最多的Stream Processor,並且也新增加了許多功能,例如DirectX 11的完全支援、單卡六螢幕同時輸出的Eyefinity等技術。
Radeon HD 5800系列分別有兩款,一是較高等級的Radeon HD 5870,另一則是Radeon HD 5850,兩者的差別就在於時脈以及SP、Texture Unit等數量,而本此筆者取得Radeon HD 5870。
Radeon HD 5800系列採用的核心代號為Cypress、在十月中將會推出另一高階產品Hemlock(500美金左右),它是一款類似Radeon HD 4870 X2的雙核心產品,預定的對手會是GeForce GTX 295。而Cypress次一級的核心為Juniper(200美金左右),其將為Radeon HD 5700系列的核心,而在更下一層則是Redwood與Cedar(100美金左右),預料將會是中、低階產品。
另外,筆者個人推測ATI還將會推出類似Radeon HD 4890的Radeon HD 5800系列產品,各位就看看這說的準不準了。
不過在看Radeon HD 5800系列之前,請先稍微瞭解一些半新不舊的玩意,如果你很急著想要知道Radeon HD 5870戰GeForce GTX 295誰勝誰負的話,那麼現在就告訴你是GeForce GTX 295小勝。
Tessellation的崛起
打從ATI 協助 Microsoft進行Xbox 360的開發之後,往後的ATI繪圖核心對於Tessellation這個功能就有極大的專注力,一般人所瞭解的,不外乎就是Tessellation是 ATI從2002年開始發展的一項3D繪圖技術,它可將一般的物體「自動」細分出更多的多邊形,一旦3D物體擁有高度複雜的多邊形,就可以有著更加精細的外表,因此,Tessellation在「自動」產生這些多邊形之後,設計師就再也不必事前畫出那麼精細的外觀,還大大減少等待計算時間、以及電腦運行3D物體的延遲。
但是,Tessellation 就是這般簡單而已嗎?讓我們從DirectX 11的流程說起。當Vertex Shader執行完畢,隨後進入Tessellation流程,在這流程當中分別有著:Hull Shader、Tessellation、Domain Shader。
從Vertex Shader所計算完畢的頂點資料,進入了Hull Shader,此時它將會分成兩部分一同運作,分別是Control Point Phase與Patch Constant Phase。在Control Point Phase功能的部分,它可以以相當隱匿的方式來改變物體表面,例如原本四四方方的正方體,將其中的一點往外拉出,那麼,原本直線的角度就會被「連動」影響產生了「曲線」,就像是繪圖軟體中的bezier patch一樣,所以Control Point Phase就是用來控制「點」的,就好像Control Point Phase可以改變一顆圓球的控制點,讓它變成了刺蝟一樣,而最尖端的部分就是被控制的「點」。
另一個Patch Constant Phase,則是負責設定Tessellation所需要的「鑲嵌級數」,而且在每一次的輸入原始資料時,Patch Constant Phase就會進行一次運作。也就是說,有點類似一個三角形裡,再畫出數個三角形,然後依照「鑲嵌級數」來決定要畫出多少個三角形。
在Hull Shader已經調整完畢「控制點」與「鑲嵌級數」之後,Tessellation就會接手開始在原始輸入資料上「自動」新增頂點,那麼要新增多少呢?就如同上段所說,在設定完畢鑲嵌級數之後,控制點就會開始產生頂點出來,就好像「Domain Parametrization」圖片一樣,當你想要繪畫出一顆圓形球體時,可以只要先繪製出「圖片最下方」的多邊形,經由Hull Shader與Tessellation的生成之後,就可以變為「圖片左上角」的大量多邊形,但是,別弄錯囉!到目前為止還不算完成整個Tessellation 的流程,最終要形成一球體還需要經過Domain Shader的資料轉換(圖片中的圓球體)。
來到Domain Shader之後,它會評估每一個頂點的表面,然後再利用Hull Shader裡的Control Point來轉換資料產生新的頂點(在這裡之前都是平面資料,所謂的轉換,則是平面資料轉為「空間」裡的頂點)。在這裡除了可以使用先前提的 bezier patch之外,還可以在Domain Shader裡進行Displacement Mapping(位移貼圖),讓「頂點」可以以法向量的方法進行位移,使得在遊戲當中觀看地形或物體表面更為真實。
而以上,就是依靠兩個可程式化的Shader(Hull Shader、Domain shader)與一個固定管線(Tessellation)的簡單介紹。而且,就筆者個人的看法,此功能表現最佳的應該會是ATI,因為ATI做的早,而且已經相當清楚整個的Tessellation流程,再加上旗下所有的產品早有大規模的支援DirectX 10,所以ATI應該會是表現較佳的一方(除非它的Triangle生成速度太慢)。
LOD將會十分需要這功能
Tessellation有哪些特點?
1.這是一種極為簡單的3D呈現方式。
2.在原始的資料上,最多可以鑲嵌到64級。
3.極具效率的生成高細緻度模型的方式。
4.這是由「硬體」所計算的。
那麼,有了這些特點,我們要在那裡可以運用的到Tessellation?難道只有山啊~怪物啊~其實啊,這個功能最大的受益者,就是大量採用LOD特效的遊戲。LOD是指Level of Detail,也就是說當一個物體在很遠的時候,就可以使用較少的多邊形來簡化該物體外觀,因此,在遊戲當中你所看到的遠方高山,只不過是利用很少量的多邊形來表現,但是,如果今天這座高山往你眼前飛來,那麼它的多邊形就會開始增加,這種以物體遠近來判斷需要的多邊數量是一種有效平衡性能的方式。
但是使用LOD 時,顯示卡得要隨時更改3D場景中的物體多邊形,一旦核心與記憶體稍有延遲,那麼大概就可以看到物體的表面會「怪怪的」了,但是若有了 Tessellation 之後,LOD的多邊形可以「自動」生成,而不必重新載入資料到核心與記憶體當中,這樣不需要資料不斷的搬移將會減少掉大量的時間。
Multi Threading功能初現
這個功能是指支援多核心處理器,不是顯示卡的繪圖核心。直到目前為止的DirectX 10.1都還是屬於「Single Thread」的產物,而現在看到支援多核心的遊戲,都是遊戲廠商想辦法給做出來的,例如,物理計算、AI等功能都是從遊戲中「抽出來」給處理器執行。
我們打個比方,在一片森林當中有塊大石頭在地上,那麼,這時候可能就需要有幾個指令,A是要求畫出這個畫面上所有的頂點,B則是要貼上這些頂點需要的貼圖材質,由於載入頂點速度較快、但是貼圖需要一點時間,所以可能會看到3D場景的貼圖會怪怪的,那就是因為A、B兩個指令的Thread在「同一顆處理器核心裡排隊」。
這是因為當一個場景需要畫出很多三角形時,就要下指令給繪圖核心去做,但是,這些下指令的動作都是需要花費處理器的執行時間,像是森林裡的石頭與樹木,你很難用同一個指令去執行,因為這兩物體的貼圖都不一樣,但是來到DirectX 11之後,就可以看到貨真價實的Multi Threading功能了。若以最簡單的方式來說,就是把不同的指令分派到不同的核心上,讓這些指令「幾乎」有同時計算的效果。也就是說,A、B兩個指可以放在不同的核心上,等A這個Thread執行完成後,B這個Thread早已準備下指給繪圖核心去做B指令裡頭的事情了。
因此,DirectX 11指的Multi Threading功能並不是講繪圖核心可以多工,而是說在「指令」方面可以變的更有執行效率。
在這裡我們可以再多談一些,在DirectX 10或是更早之前,它們的Command Queue就是以照順序來執行的,例如下指令a、b、c時,一定是先把a執行「完畢」,才會開始進行b、c。這是因為在執行之前,得要先建立 Immediate Context,而且這個時候要先指定它是Single thread 或是Multi thread,如果是Single thread,那麼同時只夠有一個Thread去使用這個Immediate Context,所以Single thread情況來說,a、b、c指令一塊下,所以是不能同時執行的,但是,就算你在建立Immediate Context的時候是採用Multi thread的格式,但a、b、c指令的三個Thread還是對到同一個Immediate Context去,所以會變成無效,因為這個Immediate Context會被Lock住,等到前一個Thread用完,下一個Thread才能使用。
但是來到DirectX 11時,可以採用Deferred Queue的方式,讓指令們可以變成「無關聯」,像是讓a、b、c指令裡的a與b沒有關聯,那麼就可以同時執行。因為DirectX 11可以建立Deferred Context,讓Thread (a)存取Immediate Context,而Thread(b)可以存取Deferred Context,那麼Thread(b)就可以下指令,等下完畢之後,才進入Immediate Context,所以這一些下指令所產生的Overhead就可以被不同的處理器核心去分擔。所以,你如果有八核心處理器,那麼就可以執行八個 Thread(a、b、c、d、e、f、g、h),而這八個Thread都會有自己的Deferred Context,而它最後都會連結到Immediate Context去。因此,再重申一次Multi Threading功能指的是在處理器上頭進行,與繪圖核心是沒有關聯的。
DirectX 11的遊戲有幾套?
這個問題筆者也很想知道,就從ATI發表支援DirectX 10.1的顯示卡之後,就不斷宣稱即將有DirectX 10.1的遊戲會出現,但是到了2009年底的現在,才終於看到「幾套」出現,這樣的結果,對於遊戲玩家來說是絕對不能被滿足的!
現在雖然ATI又說明自己是全球第一款支援DirectX 11的顯示卡,那麼有辦法支援的遊戲又有幾套呢?(而且你還要升級到Windows 7)就ATI表示,目前將會有ALIENS-PREDATOR、STALKER: Call of Pripyat、Dirt 2三套,那麼,這下聽起來似乎又只有少少的這幾套支援了(而且又不知道要拖到什麼時候才會出),咱們這票玩家該怎麼辦呢?
其實筆者在DirectX 11這一次還蠻有信心的,第一點,畢竟這是Microsoft大大方方的宣傳他們自家的DirectX 11,因此,應該很多遊戲廠商會立刻跟進,這點,就完全跟推出DirectX 10.1的過程完全不同。
第二點,這一次DirectX 11宣布推出時,還強調有所謂的Compute Shader,若是ATI與NVIDIA不立即跟進,就很難在日後的遊戲(物理、ATI)或是其他軟體上多有發揮之地,所以,至少在高階顯示卡方面相信兩大廠都會全力支援DirectX 11。
插個題外話,不過NVIDIA的GT300目前遇到了一些困難,若能在2009年底就推出算已經十分順利,而雖然這款高階產品會支援DirectX 11,但隨後發表的中、低階產品將只會保持DirectX 10.1的等級,這點,倒是頗令筆者意外的(當然,希望這消息是假的)。
六螢幕同時輸出Eyefinity
Radeon HD 5800發表前夕,ATI在9月10日先展示了一項新技術──Eyefinity多重螢幕顯示,而且為了展示它的全部實力,特地把展示地點辦在曾經參加空襲日本東京的大黄蜂號航空母艦上頭,那麼,ATI到底想要在這艘參與過二戰的航空母艦上展示些什麼呢?
簡單地說,就是想要向人們展示「單卡、六螢幕輸出」的新能力。也就是Radeon HD 5870在6 DisplayPort的版本上,可以同時接上六台三十吋螢幕,因此,在一台螢幕2560×1600解析度的情況下,六台螢幕則是可以輸出達7680×3200的驚人效果,而且,在執行遊戲時居然還可以開啟MSAA,真是讓人無法想像Radeon HD 5870是如何達到這般效果的。不過,同時輸出六螢幕的畫面,唯獨在Radeon HD 5870在6 DisplayPort的版本才得以支援,一般的Radeon HD 5870則只有支援3 螢幕輸出。
但是,各位還記得ATI的CorssFire X技術嗎?今天若是四張Radeon HD 5870 6 DisplayPort的版本呢?四張顯示卡、每張可輸出六個螢幕畫面,那麼,它的解析度將會達到多少?答案是15360×6400(6×4排列狀),而且,螢幕排列方式還有可以有多種變化,利用Single Large Surface技術,可以讓使用者選擇是要多螢幕的輸出,或是多螢幕合併為單一螢幕等切換。
一般的Radeon HD 5870將會有雙DVI、HDMI、DisplayPort等四種影像連接埠,6 DisplayPort的版本,則是可以看到一共6組DisplayPort的影像連接埠,但是,就筆者詢問是否每一個DisplayPort都可以輸出「音訊」時,ATI則是表明「同時」只能有一個DisplayPort可以輸出音訊。
不過,對於使用者來說,大概要網站標錯價,你才可以買的起三台螢幕、六台螢幕,甚至於是二十四台螢幕吧?回到正題,現在ATI出了那麼一記強拳,NVIDIA將要如何對應呢?筆者覺得,NVIDIA的Quadro NVS系列產品,將會直接受到影響,畢竟目前它最多只有輸出四螢幕而已,而有多螢幕需求的人雖然不一定要強大的3D能力,但是需要多螢幕輸出的人,當然是希望可以輸出愈多愈好,接下來就看看NVIDIA怎麼回擊了。
Cypress核心架構簡介(本文授權給予HKEPC使用)
在解說Radeon HD 5870所使用的架構之前,請先各位有一個觀念,那就是它「很像」是RV770 × 2的架構,也就是說,當初RV770有的800個SP、10個材質單元、4組RBE等等,現在通通都變成了兩倍,但是,有些執行單元的數量卻是保持不變,所以各位得要仔細看清楚了。
在架構圖的正上方,有著核心當中的「流程、控制」等執行單元。而最上方的Command Processor則是負責處理已經轉成VLIW的資料。在Graphics Engine裡頭有著Vertex、Geometry執行單元在準備資料給SP進行計算,而Rasterizer再把多邊形的圖形掃瞄成具有像素的資料,接著再送進運算單元裡做貼圖,不過,有趣的地方就是這一次的RV870的Rasterizer執行單元多了一個,看起來是為了滿足1600SP的需求特地增加的。
至於Tessellator還需要介紹嗎?本篇它大概就佔了不少篇幅了吧!總之,簡單說明它就是可以讓一個多邊形很簡單的模型,收到指令之後就在原本的多邊形開始產生更多個多邊形,使其外觀可以變的更為精細。Hierarchical Z這個執行單元也多了一個,而它最主要的作用,就是讓資料被送進運算單元之前,可以先剔除掉不必要的畫面,以避免計算完畢之後又無需顯示的情況。
Ultra-Thread Dispatch Processor是SP們的控制單元,它可以分派Thread給不同的運算、材質單元,而在運算的過程當中,一組Core只能執行同一組的Thread,當運算途中需要暫停,那麼Ultra-Thread Dispatch Processor可以把這組Core的Thread取出、暫存起來,然後再丟入另一組Thread進去計算,若前一組Thread所需要的資料已經送達時,那麼就會再把原有的Thread送回再進行未完成的計算,簡而言之,Ultra-Thread Dispatch Processor就是一個讓SP可以不斷運算的執行單元。
雖然在架構圖中可以看到只有一組Ultra-Thread Dispatch Processor,但是,這會是跟RV770所使用的同一組嗎?就筆者詢問ATI的結果,在其內部的Arbiter與Sequencer,也都有跟著增加數量,但是ATI卻沒有明確的說明是增加多少,就筆者個人猜測,大概會是各40組吧!比上一次的RV770多兩倍。
架構圖中可以看到同樣的方格佔了相當大的面積,其實這裡頭就是所謂的Stream Processor(SP),但ATI這次則是稱為Stream Cores。在RV870核心裡一共有20個Core(ATI稱為20 SIMD Engines),每個Core裡頭可以運算16個Thread,而這16個Thread均是由16個VLIW單元來負責。而在每一個VLIW單元裡,共有4個Stream Cores(SP)與1個Special Function Stream,所以計算起來一共有5個SP,所以20個Core × 16個VLIW單元 × 5個SP = 1600個SP。
插個題外話,RV670核心一共是320個SP,來到RV770核心之後達到了800個SP,這樣一共成長了2.5倍,而RV770核心到RV870核心的1600個SP,又有2倍的成長,照這個邏輯下去,下一代可能就是3200個SP了,不過,講這個都還太早了些。
每一個VLIW單元裡都有5個SP,只要執行一次指令最多就可以同時讓五個SP一塊計算,而這就是VLIW架構的好處,當然還是得看你程式怎麼寫,而在這些SP之中,根據功能的不同還劃分為兩種,就如同前文所說的4個Stream Cores(SP)與1個Special Function Stream。而前4個Stream Cores(SP)在每一個周期下,可以進行以下幾種指令:
4個32bit FP MAD
2個64bit FP MUL or ADD
1個64bit FP MAD
4個24bit Int MUL or ADD
MAD(乘法與加法運算)、MUL(乘法運算)、ADD(加法運算);FP(Floating Point,浮點數)、Int(Integer,整數)
另一個則較特殊的SP叫做Special Function Stream,從圖片上來看它比較肥大,但真實情況是不是那麼肥大,筆者就不曉得,但在這裡只知道它可以計算SIN、COS、LOG、EXP等特殊函數(大多在計算三角形)外,還可以在每一個周期下,執行1個32bit FP MAD指令。
而以上5個SP 雖然被劃分成兩種,但是都可以進行MAD的運算,所以,在一個VLIW單元裡,我們可以稱作4D+1D的架構。但是,別忽略了VLIW單元另一個運算單元Branch Exectuion Unit,在圖中它的體積更小,但是功能還是不可被忽視,它專門進行Branch的計算以及Stream的控制,透過它可以把Task分配到空閒下來的SP,而這些分配動作完全在核心內自行運作。而整個SP的運算能力計算下來,ATI宣稱可以達到RV870可以提供2.7TFLOPs的單精度運算能力,雙精度則是544GFLOPs,比競爭對手的Tesla C1060高出七倍的效能。
RV870 與RV770的材質單元是一樣的,只是總數量不同。在每一個材質單元裡,分別有四個材質定址、四個材質過濾以及16個材質取樣,所以,在RV770核心的十個材質單元的總數計算之後,一共是四十個材質定址、四十個材質過濾單元,但是,由於材質單元的數量加倍,在RV870上增加到了二十個材質單元,所以,在RV870核心裡一共有了八十個材質定址、八十個材質過濾單元。
而材質定址,指的功能是說資料從顯示卡記憶體傳送到繪圖核心裡的執行單元,而材質過濾則是讓貼圖可放大或縮小,而這樣的需求要頗為複雜的取樣計算,因此,只要這兩單元的數量與速度愈高,將會對3D畫面有相當大的幫助。由於這樣的執行單元數量倍增,使得材質產生能力大增,以下為ATI所提供的數據:
Increased Texture Bandwidth
• Up to 68 billion bilinear filtered texels/sec
• Up to 272 billion 32-bit fetches/sec
至於20個Core所各別擁有的L1快取,其容量均為8kB;L2則是只有4組,分別是128kB,其可達到的傳輸容量如下:
Increased Cache Bandwidth
• Up to 1 TB/sec L1 texture fetch bandwidth
• Up to 435 GB/sec between L1 & L2
而RV870可以提供2.7TFLOPs的單精度運算能力,雙精度則是544GFLOPs(完全符合IEEE754-2008標準精確度 ),再加上可全面支援DirectCompute 11與OpenCL 1.0,這對於未來GPGPU的運用有著極大的幫助。而在RV870 核心當中,在每一組Core裡都有一個相對應的Local Data Share,其容量大小為32KB(20個Core ×20個32KB),其最主要的用途就是讓每一個Core裡的Thread共用數據,這樣將可以有效減少Thread需要到系統記憶體去存取的延遲時間,大大加快Core裡的運算速度。
另外在RV870還有一個Golbal Data Share(64KB),主要的用途是給各個Core共享數據使用,不過,以上所講的Local Data Share、Golbal Data Share在遊戲著色當中並沒有什麼作用,但是遊戲裡頭使用了AMD Stream進行物理、AI等「非繪圖」運算時,Local Data Share、Golbal Data Share就會有著相當重要的角色。
Render Back-Ends(簡稱為RBE)功能,這一詞大概比較少人曉得,不過一講到它就是NVIDIA所稱的ROP大概就知道,總之,它就是將計算完畢的畫面輸出至顯示卡的記憶體裡,然後再傳送到螢幕上頭,而另一個功能就是利用內部的Z/Stencil單元就是計算不必出現的畫面(陰影)與畫面中的物體遠近,其他單元則是進行MSAA、HDR等。
在 R600、RV670的時候,在Render Back-Ends裡頭一共只有8個Z/Stencil,但是,到了RV770之後卻增加了兩倍,一路加到了16個Z/Stencil,因此,在總數量上從前一代 RV670的32個,到了RV770後其Z/Stencil增加到了64個,來到RV870核心之後則變成八組,所以變成了128個Z/Stencil。
至於處理反鋸齒的MSAA單元數量也有改變,RV770的四組,RV870核心之後則變成八組、每組有16個MSAA,所以整體計算下來,RV870核心裡的Render Back-Ends一共有128個MSAA。所以,也因為Z/Stencil與Render Back-Ends執行單元有著兩倍的成長,因此,在理論值數據上也有著兩倍的增加(請參考Render Back-Ends圖片)。
在RV770時代,其RBE便已經擁有極大的改進,在一個周期下可以完成32bit與64bit的4x MSAA,而現今的RV870的RBE數量加倍,則是把效能推升至一個周期下可以完成32bit與64bit的8x MSAA,因此,筆者個人相信這一代的RV870有更強的MSAA能力,不過這次RV870仍然保持256bit的記憶體頻寬,會不會因此影響MSAA的能力,這看起來得要實測才曉得了。
雖然根據ATI表示,MSAA在RV670核心時都是交由 Shader去計算,直到下一代的RV770核心才轉回來在Render Back-Ends計算,但是,這樣的說法雖說來自於ATI的David Wang(VP of Enineering Graphics Products Group),但是目前在玩家之間仍然有許多不同的看法,最終如何筆者也不曉得了。
說到了Render Back-Ends,那麼筆者就順帶提一下這次在DirectX 11的一項新功能吧!那就是支援32bit與64bit的HDR新的壓縮格式block compression modes(BC6/7)也就是說,可以針對HDR所需要的材質進行壓縮達6:1,以這種新的壓縮法將有效提高畫質許多,當然,這也是RV870可以完全支援的。
至於RV870內部的傳輸方式,除了Core與BRE採用Crossbar來互相連結之外,其餘的一些執行單元則是利用HUB來相互連結,例如UVD2、PCI Express、Display Interfaces以及四組記憶體控制器(但有8個32bit Interface)。
Radeon HD 5870外觀圖
Radeon HD 5870拆卸圖
Radeon HD 5870測試設定
筆者取得一張Radeon HD 5870公版顯示卡之後,原本想要來個集體大評比,從GeForce GTX 295、285、275到Radeon HD 4879、4890等,但是因為時間的關係,所以只能夠與GeForce GTX 295一拚高低。
從原價屋的價格來看,屬於國家級跳水隊的微星,其GeForce GTX 295的售價仍然15500元,而Radeon HD 5870的定價是在400元美金,若按照新台幣來計算的話大約是在12962元左右(以20號的滙率來計算),所以,按照這天的價格來計算,這GeForce GTX 295的價格足足貴了Radeon HD 5870有2538元,這樣的價格幾乎都快要可以買一張GeForce 9500 GT了,不過沒關係,GeForce GTX 295價格貴了一點說不定效能比Radeon HD 5870還要好,咱們就往下再看下去吧!
同場加映藍寶Radeon HD 5870
就在筆者截稿前夕,收到了廠商自行推出的Radeon HD 5870,而速度那麼快的廠商,大概也只有與ATI關係密切的SAPPHIRE。在ATI這一次推出Radeon HD 5800系列顯示卡時,其彩盒內都會bundle Dirt2的遊戲,不過SAPPHIRE還另外贈送了一套Battlestations:Pacific(中途島戰役:血戰太平洋),看起來比ATI更大方了一些。
SAPPHIRE Radeon HD 5870彩盒使用淡金色的設計,外觀除了寫滿顯示卡本身的特色之外,還附上彩盒中內附的兩款遊戲圖片。打開彩盒之後,看到SAPPHIRE的內盒都是一慣土黃色的設計,再打開之後才是顯示卡本體,而下層則是顯示卡的相關配件。
而SAPPHIRE Radeon HD 5870本體,已經貼上SAPPHIRE自家的貼紙,較意外的地方是在風扇上頭並未黏上,而在顯示卡底部也貼滿各式規格、認證貼紙。
System Configuration
Motherboard:Intel X48 Chipset
Processor:Intel Core 2 Duo E8500(3.16GHz)
Memory:Kingston DDR2-800 1GBx2
Hard Drive:Seagate 7200.9 250GB
Power Supply:Silver Stone SST-ST1000(我終於換Power了,(淚))
Display:SAMSUNG 2443BWX
OS:Windows Vista Ultimate SP1 32bit
VGA Configuration
Driver:
ATI 8.66-090910a-088431E(RC6)
NVIDIA Forceware 190.62
Radeon HD 5870
Core:850MHz
SP:850MHz
Memory:4.8GHz
GeForce GTX 295
Core:576MHz
SP:1.242GHz
Memory:1.998GHz
Software Configuration
DirectX 10.1:
Tom Clancy’s HAWX v1.00 Benchmark Demo
S.T.A.L.K.E.R. : Clear Sky Benchmark
DirectX 10:
3DMark Vantage v1.01 Patch
Devil May Cry 4 Benchmark Demo
Crysis(Hotfix 1.21)
Call of Juarez Benchmark Demo
Resident Evil 5 PC Benchmark
Street Fighter IV Benchmark
DirectX 9.0:
3DMark 06 v1.1.0 Patch
The Last Remnant Benchmark Demo
Prey v1.4 Patch
Unreal Tournament 3(v2.1Patch)
Radeon HD 5870數據整理
經過了13種、79項的3DMark與遊戲測試,最終看到Radeon HD 5870小輸了1.11%的3D效能。這當中當然也有ATI與NVIDIA各佔優勢的地方,但是在某些遊戲裡GeForce GTX 295敗下陣來,筆者個人是懷疑到GeForce GTX 295本身內部SLI的問題,不然像是一些fps的瞬掉都很難解釋是什麼問題造成。
在耗電量方面Radeon HD 5870有著極佳的表現,雖然在效能上小輸了一些但耗電量卻是大大的減低,在待機時筆者甚至看到僅有99W的情況,而在全速進行3D畫面計算時,也不過才254W,這實在很難跟它的龐大體積做聯想,而筆者在利用它觀看藍光影片時(H.264格式),也不過才140W的耗電量。而有這樣的表現,大概除了是在核心本身的控制有所成效之外(筆者是覺得有AMD做處理器經驗的協助),在記憶體顆粒上有著兩種電壓的運作情態也是關鍵之一。
但是,就從Radeon HD 5870這次的成績來評論它絕對輸給了GeForce GTX 295也不夠公平,畢竟目前的驅動程式仍屬RC版本(RC6),再加上其核心架構採用的是VLIW,所以會有驅動程式愈更新、效能就會愈好的情況,所以,如果可以的話咱們還可以期待幾個月後即將推出的GT300再來與Cypress做個男人般的單晶片對決。
從單晶片的角度來看,筆者個人認為直到ATI推出Cypress之前,仍然都是NVIDIA的GT200b略勝一些,按照時間,理應由GT300來跟Cypress一同比較,但是有了「時間差」之後,就看不到這樣的情況了。
而且,再加上市場上傳聞GT300的良率與進度都不樂觀,看起來一時之間也很難有什麼新產品可以對應Cypress,不過,筆者個人倒是覺得NVIDIA可以延用G92核心的老方法,直接把GT200b拉進40nm、再加上256bit或更高的記憶體頻寬,再使用GDDR5的記憶體顆粒,或許,這樣就會有另一番新局面,當然,這都只是猜測與推論而已,本篇到此結束,謝謝。