<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > 網(wǎng)絡(luò )與存儲 > 設計應用 > 英特爾用AI技巧發(fā)現數據中心芯片中隱藏的缺陷

英特爾用AI技巧發(fā)現數據中心芯片中隱藏的缺陷

—— 強化學(xué)習測試芯片是否存在僅在大型數據中心中出現的錯誤
作者: 時(shí)間:2025-04-25 來(lái)源:IEEE頻譜 收藏

對于大型中的高性能芯片,數學(xué)可能是敵人。由于超大規模正在進(jìn)行的計算規模龐大,在數百萬(wàn)個(gè)節點(diǎn)和大量硅片上全天候運行,因此會(huì )出現極其罕見(jiàn)的錯誤。這只是統計數據。這些罕見(jiàn)的、“無(wú)聲的”數據錯誤不會(huì )在傳統的質(zhì)量控制篩查中出現,即使公司花費數小時(shí)尋找它們也是如此。

本文引用地址:http://dyxdggzs.com/article/202504/469841.htm

本月,在加利福尼亞州蒙特雷舉行的 IEEE 國際可靠性物理研討會(huì )上,工程師介紹了一種使用強化學(xué)習來(lái)更快地發(fā)現更多無(wú)聲數據錯誤的技術(shù)。該公司正在使用機器學(xué)習方法來(lái)確保其  處理器的質(zhì)量。

發(fā)生錯誤時(shí),運營(yíng)商可以關(guān)閉并替換節點(diǎn),或者使用有的系統進(jìn)行低風(fēng)險的計算,亞利桑那州錢(qián)德勒園區的電氣工程師 Manu Shamsa 說(shuō)。但如果能及早發(fā)現錯誤,那就更好了。理想情況下,他們會(huì )在芯片集成到計算機系統之前被發(fā)現,此時(shí)可以進(jìn)行設計或制造更正以防止將來(lái)再次出現錯誤。

“在筆記本電腦中,您不會(huì )注意到任何錯誤。在具有真正密集節點(diǎn)的數據中心中,星星很有可能對齊并發(fā)生錯誤?!?nbsp;Intel 的 Manu Shamsa

找到這些并不容易。沙姆薩說(shuō),工程師們對它們感到非常困惑,他們開(kāi)玩笑說(shuō),這一定是由于遠距離的幽靈般的動(dòng)作,愛(ài)因斯坦對量子糾纏的稱(chēng)呼。但他們并沒(méi)有什么令人毛骨悚然的,Shamsa 花了數年時(shí)間來(lái)描述他們。在去年同一會(huì )議上發(fā)表的一篇論文中,他的團隊提供了這些錯誤原因的完整目錄。大多數是由于制造過(guò)程中的微小變化。

即使每個(gè)芯片上的數十億個(gè)晶體管中的每一個(gè)都正常工作,它們彼此之間也不完全相同。例如,給定晶體管對溫度、電壓或頻率變化的響應方式的細微差異可能會(huì )導致誤差。

由于計算速度和涉及的大量芯片,這些微妙之處更有可能在大型數據中心中出現?!霸诠P記本電腦中,您不會(huì )注意到任何錯誤。在具有真正密集節點(diǎn)的數據中心中,星星很有可能對齊并發(fā)生錯誤,“Shamsa 說(shuō)。

只有在數據中心安裝了芯片并運行了數月后,才會(huì )出現一些錯誤。晶體管特性的微小變化會(huì )導致它們隨著(zhù)時(shí)間的推移而退化。Shamsa 發(fā)現的一個(gè)這樣無(wú)聲錯誤與電阻有關(guān)。起初正常工作并通過(guò)標準測試以尋找短路的晶體管,在使用后會(huì )降解,從而變得更耐用。

“你認為一切都很好,但在下面,錯誤導致了錯誤的決定,”Shamsa 說(shuō)。Shamsa 說(shuō),隨著(zhù)時(shí)間的推移,由于單個(gè)晶體管的輕微弱點(diǎn),“一加一會(huì )變成三,悄無(wú)聲息,直到你看到影響。

機器學(xué)習發(fā)現

這項新技術(shù)建立在一組現有的檢測靜默錯誤的方法(稱(chēng)為 Eigen 檢驗)之上。這些測試使芯片在一段時(shí)間內重復做困難的數學(xué)題,以期使無(wú)聲錯誤明顯。它們涉及對填充了隨機數據的不同大小的矩陣的作。

有大量的 Eigen 檢驗。運行所有這些應用程序將花費不切實(shí)際的時(shí)間,因此芯片制造商使用隨機方法來(lái)生成一組可管理的內存條。這樣可以節省時(shí)間,但不會(huì )檢測到錯誤?!皼](méi)有原則來(lái)指導輸入的選擇,”Shamsa 說(shuō)。他想找到一種方法來(lái)指導選擇,以便相對較少的測試可能會(huì )發(fā)現更多錯誤。

團隊使用強化學(xué)習為其至強 CPU 芯片的部分開(kāi)發(fā)測試,該部分使用所謂的熔斷-乘法-加法 (FMA) 指令執行矩陣乘法。Shamsa 表示,他們選擇 FMA 區域是因為它占據了芯片的相對較大的區域,使其更容易受到潛在的靜默錯誤的影響——更多的硅,更多的問(wèn)題。更重要的是,芯片這一部分的缺陷會(huì )產(chǎn)生電磁場(chǎng),從而影響系統的其他部分。由于 FMA 在不使用時(shí)會(huì )關(guān)閉以節省電量,因此對其進(jìn)行測試需要反復打開(kāi)和關(guān)閉電源,這可能會(huì )激活隱藏的缺陷,否則這些缺陷不會(huì )出現在標準測試中。

在訓練的每個(gè)步驟中,強化學(xué)習程序都會(huì )為潛在有缺陷的芯片選擇不同的測試。它檢測到的每個(gè)錯誤都被視為獎勵,隨著(zhù)時(shí)間的推移,代理會(huì )學(xué)會(huì )選擇哪些測試可以最大程度地提高檢測到錯誤的機會(huì )。經(jīng)過(guò)大約 500 個(gè)測試周期后,該算法學(xué)習了哪組 Eigen 測試優(yōu)化了 FMA 區域的錯誤檢測率。

Shamsa 說(shuō),這種技術(shù)檢測到缺陷的可能性是隨機 Eigen 測試的五倍。特征測試是開(kāi)源的,是面向數據中心的 openDCDiag 的一部分。因此,其他用戶(hù)應該能夠使用強化學(xué)習來(lái)修改他們自己的系統的這些測試,他說(shuō)。

在某種程度上,無(wú)聲、細微的缺陷是制造過(guò)程中不可避免的一部分——絕對的完美和均勻性仍然遙不可及。但 Shamsa 表示,英特爾正試圖利用這項研究來(lái)學(xué)習更快地找到導致靜默數據錯誤的前兆。他正在研究是否存在可以為未來(lái)錯誤提供早期預警的危險信號,以及是否可以更改芯片配方或設計來(lái)管理它們。




關(guān)鍵詞: 英特爾 AI 數據中心 缺陷 Xeon

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>