<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

"); //-->

博客專(zhuān)欄

EEPW首頁(yè) > 博客 > 加州大學(xué)團隊開(kāi)發(fā)異構編程新模型，開(kāi)辟提升處理器性能新路徑

加州大學(xué)團隊開(kāi)發(fā)異構編程新模型，開(kāi)辟提升處理器性能新路徑

發(fā)布人：深科技時(shí)間：2024-03-03 來(lái)源：工程師

加入技術(shù)交流群
- 掃碼加入
  和技術(shù)大咖面對面交流
  海量資料庫查詢(xún)

發(fā)布文章

如果你關(guān)注數碼科技，那么你一定對“性能過(guò)剩論”不陌生。對于普通用戶(hù)來(lái)說(shuō)，如今的芯片性能足以應對大多數的日常場(chǎng)景。

然而，人工智能應用領(lǐng)域的熱潮似乎又重新點(diǎn)燃了許多人對于算力的需求。與此同時(shí)，在圖形處理與渲染、高性能計算等領(lǐng)域，人們對提升處理器性能的追求從未停歇。不過(guò)，在摩爾定律與登納德縮放定律都面臨危機的今天，除了依賴(lài)制程的發(fā)展和核心數的增加，我們還能找到其他可行的路徑來(lái)提升計算機性能嗎？近期，由美國加州大學(xué)河濱分校的副教授曾宏偉（Hung-Wei Tseng）領(lǐng)導的研究團隊，提出了一種以新的軟件框架提高現有計算機處理速度的方法，為我們提供了一種新的性能提升思路。

圖丨曾宏偉（來(lái)源：加州大學(xué)河濱分校）為了處理不同類(lèi)型的數據，現代計算機大都集成了多種處理器，并引入異構計算模型以提升性能。
然而，由于傳統的編程框架，包括領(lǐng)域特定語(yǔ)言（domain-specific languages），只能將代碼區域（code region）分配給一種處理器，使得其他計算資源閑置而無(wú)法用于當前函數的運算，因此現有編程模型并不能充分發(fā)揮異構模型的潛力。而這項名為“同步異構多線(xiàn)程”（simultaneous and heterogenous multithreading，SHMT）的編程和執行模型，旨在克服現有編程模型未能充分利用異構計算系統潛力的限制。與傳統模型不同，SHMT 可以充分利用異構的并行類(lèi)型。通過(guò)結合多種處理單元（如 CPU、GPU、TPU 等）的優(yōu)勢，這種模型能有效提升計算效率和能效。

圖丨 SHMT 的執行模型（c）相比于傳統異構計算機（a）與使用了軟件流水技術(shù)的傳統異構計算機（b）的優(yōu)勢（來(lái)源：the 56th Annual IEEE/ACM International Symposium on Microarchitecture）此前的研究已經(jīng)證明，使用了不同處理模型與設計理念的協(xié)處理器和硬件加速器，都能以出色的性能執行相同的函數，這為 SHMT 的實(shí)現提供了可能。
不過(guò)，要將同一函數的計算分解到不同類(lèi)型的計算資源中，系統面臨以下三個(gè)挑戰：第一，SHMT 需要某種機制來(lái)描述和劃分在不同的計算分區上的等效操作和數據；第二，SHMT 必須能夠高效地協(xié)調異構硬件上的執行；第三，由于不同的硬件單元會(huì )提供不同質(zhì)量水平的結果，SHMT 必須在不產(chǎn)生大量額外開(kāi)銷(xiāo)的情況下確保結果。為了解決這些困難，研究人員開(kāi)發(fā)了一個(gè)由三個(gè)主要部分組成的系統架構：首先，SHMT 引入了一種虛擬硬件的概念，允許開(kāi)發(fā)者將計算任務(wù)借助一系列虛擬操作（Virtual Operations，VOPs）的形式從 CPU“卸載”。
VOPs 定義了 SHMT 底層硬件可支持的可用操作，進(jìn)而使整個(gè) SHMT 子系統抽象為一個(gè)單一且強大的加速器。

圖丨矢量或矩陣平鋪處理模型類(lèi)型的 VOP 列表（來(lái)源：the 56th Annual IEEE/ACM International Symposium on Microarchitecture）其次，SHMT 有一套至關(guān)重要的運行時(shí)系統。它不僅作為虛擬硬件的“驅動(dòng)程序”，在程序執行期間動(dòng)態(tài)解析 VOPs，還負責評估硬件資源的能力，并據此做出智能的調度決策。
它將 VOPs 進(jìn)一步分解為高級操作（High-Level Operations，HLOPs），這些 HLOP 作為 SHMT 中的基本調度單位，每個(gè) HLOP 負責執行 VOP 運算的特定部分，且均具有硬件無(wú)關(guān)性，確保了運行時(shí)系統能夠根據實(shí)際情況靈活調整任務(wù)分配。更進(jìn)一步地，SHMT 采用了一種質(zhì)量感知的工作竊?。≦uality-Aware Work-Stealing，QAWS）調度策略，以?xún)?yōu)化資源利用率和提升系統性能。
這種策略通過(guò)動(dòng)態(tài)調整工作負載分配來(lái)平衡各種硬件資源的使用，減少空閑時(shí)間，避免性能瓶頸，同時(shí)保證了任務(wù)執行的質(zhì)量。

圖丨SHMT 概覽（來(lái)源：the 56th Annual IEEE/ACM International Symposium on Microarchitecture）

為了檢驗這一模型，該課題組使用 NVIDIA Jetson Nano 模塊定制了一個(gè)嵌入式系統平臺，以模擬移動(dòng)設備、數據中心服務(wù)器等常見(jiàn)使用場(chǎng)景進(jìn)行驗證。
該系統原型由下圖所示部分構成：

圖丨 SHMT 原型平臺構成示意圖（來(lái)源：DeepTech）
在基準應用程序上的檢測結果顯示，相較于基準方法，采用性能最佳策略的 QAWS 的 SHMT 速度提高了 1.95 倍。實(shí)驗表明，所有 QAWS 策略均能有效地提高結果質(zhì)量，MAPE（平均絕對百分比誤差）平均值低于 2%，接近于手動(dòng)優(yōu)化的 Oracle 場(chǎng)景。且無(wú)論采樣率如何變化，QAWS-TS 策略的性能都名列前茅。

圖丨（a）質(zhì)量與 QAWS 采樣率的關(guān)系，（b）速度提升與 QAWS 采樣率的關(guān)系（來(lái)源：the 56th Annual IEEE/ACM International Symposium on Microarchitecture）更為重要的是，由于 SHMT 減少了執行時(shí)間，并將計算任務(wù)轉移到耗電更低的 Edge TPU 上，因此它在節約能耗方面展現出了巨大潛力。
實(shí)驗結果顯示，與基線(xiàn) GPU 相比，SHMT 在 QAWS-TS 策略下平均減少了 51% 的能耗和 78% 的能量延遲積。
同時(shí)，得益于 Edge TPU 專(zhuān)用邏輯提供的加速功能，以及 SHMT 并行編程模型使用的低數據交換算法，這一模型也不會(huì )導致顯著(zhù)的內存和通信開(kāi)銷(xiāo)。

圖 | 相關(guān)論文（來(lái)源：the 56th Annual IEEE/ACM International Symposium on Microarchitecture）
近日，相關(guān)論文以《同步異構多線(xiàn)程》（Simultaneous and Heterogenous Multithreading）為題，在加拿大多倫多舉行的第 56 屆 IEEE/ACM 國際微架構研討會(huì )上發(fā)表[1]。
加州大學(xué)河濱分校的博士研究生徐冠杰（Kuan-Chieh Hsu）為第一作者，曾宏偉副教授擔任通訊作者。
曾宏偉對媒體表示，“你不必增加新的處理器，因為現有的就足夠了。”因此，僅需使用現有的處理組件，就相當于降低了計算機硬件成本，同時(shí)減少了服務(wù)器等設備運行時(shí)的能源消耗，也減少了碳排放與水消耗。但這一模型也面臨一些挑戰與局限性。例如，如何有效管理和調度多種類(lèi)型的計算資源以實(shí)現最優(yōu)能效、如何降低編程模型的復雜性、如何降低通信開(kāi)銷(xiāo)以及如何擴展應用平臺與場(chǎng)景等問(wèn)題，而這些也正是曾宏偉團隊未來(lái)的研究方向。

參考文獻：

1.Kuan-Chieh Hsu and Hung-Wei Tseng. 2023. Simultaneous and Heterogenous Multithreading. In Proceedings of the 56th Annual IEEE/ACM International Symposium on Microarchitecture (MICRO '23). Association for Computing Machinery, New York, NY, USA, 137–152. https://doi.org/10.1145/3613424.3614285

2.https://news.ucr.edu/articles/2024/02/21/method-identified-double-computer-processing-speeds

支持：Ren

排版：劉雅坤

*博客內容為網(wǎng)友個(gè)人發(fā)布，僅代表博主個(gè)人觀(guān)點(diǎn)，如有侵權請聯(lián)系工作人員刪除。

<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=114&cb=INSERT_RANDOM_NUMBER_HERE&n=a7a83b30' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=115&cb=INSERT_RANDOM_NUMBER_HERE&n=a3d98779' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=116&cb=INSERT_RANDOM_NUMBER_HERE&n=abca108c' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=117&cb=INSERT_RANDOM_NUMBER_HERE&n=a1775170' border='0' alt='' /></a>
<a target='_blank'><img src='https://ad.eepw.com.cn/www/delivery/avw.php?zoneid=118&cb=INSERT_RANDOM_NUMBER_HERE&n=a449048b' border='0' alt='' /></a>

關(guān)鍵詞： 加州大學(xué)

相關(guān)推薦

首批基因芯片出生缺陷基因診斷技術(shù)落戶(hù)山西

醫療電子加州大學(xué) 基因芯片基因診斷 | 2012-11-23

焦點(diǎn)

推薦視頻

更多>>

技術(shù)專(zhuān)區

国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放

<dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"></dfn><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>