八核真比四核好嗎 手機GPU指標參數(shù)詳解(2)

作者: 郭自侗  2014-04-14 10:37 [查查吧]:www.uabf.cn

  表面上看這兩種方法的吞吐量相同。但是,高級GPU負載通常由使用許多不同數(shù)據(jù)寬度的數(shù)據(jù)組成。例如,通常顏色數(shù)據(jù)寬度為4 ( ARGB ),而紋理坐標的數(shù)據(jù)寬度通常為2 ( UV),還有許多標量實例( 1個組件)處理,如典型的光照計算一樣。

  在光照計算中,如果數(shù)據(jù)處理沒有填滿整個矢量寬度時,就會浪費矢量處理器寶貴的計算資源。在標量架構(gòu)中,正執(zhí)行的運算采用一種運算類型,在同一 時間 運行一個組件,并行處理同一任務(wù)。例如著色處理中完全由標量處理組成,在4-wide矢量架構(gòu)中執(zhí)行25%的任務(wù),而在標量SIMD架構(gòu)中本應(yīng)執(zhí)行 100%的任務(wù)。

  多個低功耗ALU!

  我們再來說說USC并行任務(wù)中的獨立流水線。共有16個流水線,每個流水線內(nèi)部實際上存在數(shù)個執(zhí)行任務(wù)的ALU。即2個FP32 ALU,2個FP16 ALU,以及1個專用函數(shù)ALU 。

  為什么使用專用FP16 ALU?主要是為了節(jié)省功耗同時也是為了提高性能。與FP32 ALU相比,簡化ALU邏輯復(fù)雜度可以較低功耗執(zhí)行FP16指令組,同時可執(zhí)行更多的運算,在每個時鐘周期實現(xiàn)更高的吞吐量。稍后您就會明白。

  在高級圖像渲染中以較低精度計算可能需要耗費較多時間,而APIs Rogue力求在所有通用圖形中支持混合精度運算,其中包括Direct3D 11,以及更常見的OpenGL ES2和ES3 APIs。在嵌入式圖形運算中沒有構(gòu)建混合精度計算流水線是個錯誤,原因是執(zhí)行混合精度工作量會造成功率放大。

  性能和功能

  各個ALU的功能并不一樣,我們來看一下每個ALU的作用,以便了解其性能:

  PowerVR Series6, Series6XT和Series6XE中的FP32 ALU能夠在每個時鐘周期執(zhí)行2浮點運算。每個USC即每個時鐘周期的64 FLOP峰值。

  PowerVR Series6 GPU內(nèi)共有最多8個統(tǒng)一著色集群( USC )

  PowerVR Series6 GPU中的FP16 ALU能夠在能夠在每個時鐘周期執(zhí)行最高3浮點運算,我們在Series6XE和Series6XT 改進了FP16 ALU可在每個時鐘周期執(zhí)行最高4浮點運算。按照不同的產(chǎn)品和系列,每個USC在每個時鐘周期執(zhí)行高達128浮點運算。升級型Series6XE和 Series6XT更為靈活,執(zhí)行流水線部分運算的編譯器更為容易。

  PowerVR Series6XT GPU內(nèi)共有最多8個Unified Shading Clusters( USC )

  最后來說一下具有專用功能的ALU,ALU可處理更復(fù)雜的算法和三角運算,如正弦、余弦、對數(shù)、倒數(shù)和親和數(shù)、標量運算。按照這些運算的性質(zhì),設(shè)置了ALU輸出精度和性能。

  增強ALU內(nèi)核配置

  現(xiàn)在,我已經(jīng)說明從構(gòu)建USC塊到利用16個并行管道執(zhí)行任務(wù)來說明Rogue計算架構(gòu),各個管道有較大的專用計算資源,我們按照競爭對手的方 式來 說明內(nèi)核。每個USC包括:32 FP32 ALU內(nèi)核,高達64個FP16 ALU內(nèi)核、16 個USC專用函數(shù)ALU內(nèi)核。

  按照同樣的方式將Rogue與市場競爭產(chǎn)品比對,ALU內(nèi)核這個術(shù)語很重要,我們希望大家盡可能按這條思路來解釋內(nèi)核。

  最后,請記住,Imagination根據(jù)不同的產(chǎn)品Series6, Series6XT和Series6XE設(shè)置1對多的USC。以下為兩個實例:

  PowerVR G6230: 兩個Series6 USC-64 FP32 ALU內(nèi)核,每個時鐘周期執(zhí)行高達128 FLOP – 64 FP16 ALU 內(nèi)核,每個時鐘周期執(zhí)行高達192 FLOP。也就是按照600MHz的頻率執(zhí)行高達115.2 FP16 GFLOPS及高達76.8 FP32 GFLOPS。

  PowerVR GX6650: 六個Series6XT USC-192 FP32 ALU內(nèi)核,每個時鐘周期執(zhí)行高達384 FLOP –384FP16 ALU 內(nèi)核,每個時鐘周期執(zhí)行高達786 FLOP。也就是按照600MHz的頻率執(zhí)行高達460.8FP16 GFLOPS及高達230.4 FP32 GFLOPS。

?
發(fā)表評論

醫(yī)療健康