<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 嵌入式系統 > 設計應用 > 實(shí)戰技巧,Mali GPU編程特性及二維浮點(diǎn)矩陣運算并行優(yōu)化詳解

實(shí)戰技巧,Mali GPU編程特性及二維浮點(diǎn)矩陣運算并行優(yōu)化詳解

作者: 時(shí)間:2015-08-17 來(lái)源:網(wǎng)絡(luò ) 收藏

  筆者將clEnqueueNDRangeKernel函數中工作組大小參數設置為NULL,由 硬件自動(dòng)確定最佳的工作組大小。由于內核中每次會(huì )連續讀取4個(gè)浮點(diǎn)數值湊成float4類(lèi)型的數據,所以對于矩陣的寬度不是4的倍數的情況需要進(jìn)行特殊處理,可在主機端首先將輸入矩陣A修改為N行N/4+4列,將矩陣B修改為N/4+4行N列,多出的矩陣部分均以0補齊,這樣既不影響計算結果,也不會(huì )影響線(xiàn)程的分配方案,實(shí)現并行方案的內核函數如下所示:

本文引用地址:http://dyxdggzs.com/article/278831.htm

  

 

  本文采用Arndale Board開(kāi)發(fā)板作為測試平臺,軟件平臺采用Linaro機構為Arndale Board定制的基于Ubuntu的嵌入式Linux操作系統,其內核版本為3.10.37,實(shí)驗時(shí)使用arm-linux-gnueabihf工具鏈對程序進(jìn)行編譯。不同規模的二維浮點(diǎn)矩陣乘法運算在A(yíng)RM Cortex-A15 CPU上的串行方案和-T604 上的并行方案的測試結果如面的表1所示,為不失一般性,測試時(shí)輸入矩陣內容為隨機值,每種不同矩陣大小的測試項進(jìn)行10次測試,將測試值的平均值作為測試結果。

  

 

  上表僅列出了輸入量較大時(shí)的測試結果,筆者實(shí)際測試時(shí),發(fā)現輸入數據量較小的時(shí)候,并行方案沒(méi)有串行方案的效率高,因為計算過(guò)程大部分都消耗在數據的傳輸上,由于計算量小,端的計算瞬間完成,沒(méi)有辦法將 GPU訪(fǎng)存的延遲掩蓋,所以此時(shí)訪(fǎng)存速度較快的CPU端的串行方案反而效率更高。

  當計算量逐步增加的時(shí)候,Mali GPU的并行能力逐漸體現出其優(yōu)勢,加速比有顯著(zhù)提升,當計算量大到一定程度的時(shí)候,加速比趨于穩定,因為這時(shí)Mali GPU上有大量的線(xiàn)程切換,不僅隱蔽了訪(fǎng)存的延遲,也使得Mali GPU上的計算單元滿(mǎn)載,其計算效率已達到硬件能夠承受的極限,此時(shí)Mali GPU可以提接近40倍的供驚人的加速比。

  實(shí)際測試時(shí),筆者使用top指令觀(guān)察矩陣進(jìn)程的CPU占用量,串行方案的CPU占用量在98%左右,而基于Mali GPU的并行方案對CPU幾乎沒(méi)有占用量,說(shuō)明并行方案不僅可以提升計算效率,還降低了CPU的負擔,大大提升了系統實(shí)時(shí)性。實(shí)驗的實(shí)際測試結果和GPU異構運算特點(diǎn)吻合。

  4.結語(yǔ)

  本文針對Mali-T604 GPU論述了基于OpenCL的Linux平臺上進(jìn)行通用計算并行優(yōu)化的方法,論述了Mali-T604 GPU的硬件特點(diǎn),并基于OpenCL設計了二維矩陣乘法的并行方案,在Mali-T604上獲得了驚人的加速比,結果表明Mali GPU對于龐大輸入量的計算密集型高度可數據并行化通用計算問(wèn)題有顯著(zhù)的加速能力,且并行優(yōu)化結果正確可靠。

c語(yǔ)言相關(guān)文章:c語(yǔ)言教程


存儲器相關(guān)文章:存儲器原理


塵埃粒子計數器相關(guān)文章:塵埃粒子計數器原理

上一頁(yè) 1 2 下一頁(yè)

關(guān)鍵詞: Mali GPU

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>