大數據量進(jìn)一步推動(dòng)集中式計算
作者/Achronix市場(chǎng)營(yíng)銷(xiāo)副總裁 Steve Mensor
本文引用地址:http://dyxdggzs.com/article/201801/374299.htm近10年來(lái),大家看到集中式計算已實(shí)現了大幅的增長(cháng),大量數據都流向云端以利用其在專(zhuān)用數據中心中低成本處理的優(yōu)勢。這是一種似乎與計算領(lǐng)域總趨勢不一致的趨勢,總的趨勢是始于大型機卻逐漸移向周邊包圍型智能和物聯(lián)網(wǎng)(IoT)。隨著(zhù)我們進(jìn)入2018年,這種集中化將達到它的極限。驅動(dòng)下一波應用所需的數據量正在開(kāi)始推動(dòng)發(fā)展方向上的改變。
當前在企業(yè)生成數據中,僅有10%是在集中式數據中心之外被生成和被處理的。行業(yè)分析機構Gartner預測這個(gè)數字將在2022年達到50%。這是一種必然的反轉,其推動(dòng)因素是業(yè)界向超級連通信息物理系統的轉變。這一反轉將隨著(zhù)諸如5G無(wú)線(xiàn)通信等技術(shù)的到來(lái)和新一波面向應用的計算硬件浪潮的興起而實(shí)現。
物聯(lián)網(wǎng)的第一波浪潮就產(chǎn)出了眾多小型個(gè)體性數據項目,它們共同在大型數據中心中以最有效的方式被聚合和處理。但是隨著(zhù)物聯(lián)網(wǎng)設備和越來(lái)越多的信息物理系統開(kāi)始依賴(lài)于解讀更大量數據流的能力,重心就需要向邊緣轉移。
汽車(chē)行業(yè)提供了這種轉變的一個(gè)縮影,而我們將隨之在眾多行業(yè)中看到這種轉變。舉例來(lái)說(shuō),將來(lái)自于多輛汽車(chē)的GPS數據聚集在一起,就實(shí)現了交通堵塞的信息采集。再反送回車(chē)載單元,就可以引導駕駛員去駕行暢通的路線(xiàn)。數周的重復數據采集已經(jīng)顯現出更長(cháng)期的效益。運行于數據中心的系統已經(jīng)從成千上萬(wàn)車(chē)輛的通行狀況中獲知,在哪些高速的方式運轉。結果是更加精確、生動(dòng)的數字地圖:所有功能都實(shí)現了,而且無(wú)需派遣大量的調查車(chē)輛。
在集中式服務(wù)器中維護數據只能走到這么遠?,F在,汽車(chē)制造商正快速轉向在他們的車(chē)輛中構建更高等級的自動(dòng)能力。讓計算機來(lái)控制駕駛的能力可以減少擁堵并縮短出行時(shí)間。如今,自動(dòng)化駕駛員輔助系統(ADAS)大部分都包含智能化功能,由車(chē)載攝像頭和雷達系統所采集的場(chǎng)景信息完全在車(chē)輛內進(jìn)行處理,這些數據中的很小一部分會(huì )轉發(fā)至汽車(chē)制造商的服務(wù)器。轉發(fā)的數據可以用于更新維護數據庫以幫助實(shí)現預測性維護,以及收集ADAS軟件運行情況的統計數據。
還有更多可以使用的數據,但是帶寬和處理能力的限制阻礙了其使用,裝備ADAS系統的車(chē)輛每行駛1英里將產(chǎn)生大約10GB數據。這些信息會(huì )馬上被處理,然后會(huì )被快速遺棄;這些數據所包含的內在信息可能對很多系統都有價(jià)值。數據太過(guò)密集,所以很難傳送至集中式云服務(wù)器。但是,更接近車(chē)輛的系統可以使用高速、高性?xún)r(jià)比的無(wú)線(xiàn)網(wǎng)絡(luò ),例如專(zhuān)為V2X通信設計的IEEE 802.11p協(xié)議,以獲取這些數據并基于它們做出有依據的決定。
隨著(zhù)自主駕駛變得越來(lái)越普遍,路邊的信標和智能交通信號燈將與行駛的車(chē)輛配合以?xún)?yōu)化道路使用。在一個(gè)簡(jiǎn)單的場(chǎng)景中,通行車(chē)輛上的傳輸裝置會(huì )使用車(chē)聯(lián)網(wǎng)(V2X)將它們遇到的路面情況的數據傳遞給路邊信標。信標本身可以是孤立的,僅以低速方式連接至云端。信標可以使用其自身的計算能力來(lái)了解路面情況,并將信息傳送給另一個(gè)方向的通行車(chē)輛,而不必為了將數據傳送至云端進(jìn)行處理而遺棄大量的數據。
相似地,智能交通信號燈將采集來(lái)自于車(chē)輛的數據和圖像,以有助于確定行人、其他弱勢道路使用者和車(chē)輛本身的位置。這將幫助它們的軟件就“它們應該在何時(shí)變燈以實(shí)現最佳交通流量”這一問(wèn)題做出智能的決策。路邊的信標和車(chē)輛也將開(kāi)始互相配合以提供“一目了然”功能,從而通過(guò)確定最安全的操作時(shí)點(diǎn)來(lái)輔助超車(chē)和變道等駕駛行為。
隨著(zhù)自主駕駛等級的提升,對于低延遲、實(shí)時(shí)響應的需求變得更加至關(guān)重要。當車(chē)輛高速通行時(shí),數毫秒都很重要。當今的無(wú)線(xiàn)網(wǎng)絡(luò )可能會(huì )有大約數百毫秒級的雙向延遲,而第五代移動(dòng)通信(5G)已經(jīng)被重新架構,以在僅僅1毫秒之內對消息做出響應。但是這種引人矚目的延遲改進(jìn)需要與數據移向云端時(shí)所發(fā)生的延遲進(jìn)行比較。
邊緣計算
為了支持毫秒級的響應時(shí)間,計算資源需要被放置在更接近傳送點(diǎn)的位置,即位于網(wǎng)絡(luò )邊緣的“微云”上。微云所執行的處理將包括大量的數據分析,這通?;跈C器學(xué)習技術(shù)。這種將人工智能(AI)技術(shù)推向網(wǎng)絡(luò )邊緣的趨勢,已經(jīng)隨著(zhù)諸如亞馬遜云計算服務(wù)中的Greengrass(Amazon Web Services’ Greengrass)這樣的創(chuàng )新項目而發(fā)生了。這種服務(wù)原本被開(kāi)發(fā)用來(lái)應對物聯(lián)網(wǎng)服務(wù)發(fā)送數據到云時(shí),可能出現的無(wú)論服務(wù)器資源是否可用都需要AI支持這一情況。
首先,這些機器學(xué)習算法的訓練將發(fā)生在核心云中,同時(shí)邊緣計算系統提供了能夠處理一些推理的任務(wù),這樣也可以減輕云的能量需求。另外,連訓練過(guò)程也很可能移向邊緣,也還是因為數據的重心所致。即使有高比例數據壓縮,上傳足夠的數據以實(shí)現良好的訓練往往被證明是不現實(shí)的。
本地訓練也能使系統為它們所看到的情況、而非一個(gè)國家或者全球的平均值來(lái)修正自己的行為。智能交通信號燈可以學(xué)習本地的堵塞模式,或利用通行車(chē)輛的燃油效率追蹤來(lái)基于本地條件去優(yōu)化它們周邊的交通流量。
為了合理地服務(wù)這些多樣化的、需要快速響應的應用,微云或者邊緣計算機不能簡(jiǎn)單地只是一個(gè)云服務(wù)器的規??s小版。高性能是必需的,但是它要以一種緊湊、可靠、節能的形式來(lái)提供,這些系統很可能緊鄰像路邊的機柜一樣小的通信設備。即使是那些被部署在校園中的系統,將無(wú)法獲得與核心數據中心中的刀片服務(wù)器同等級的支持。
為了實(shí)現計算效率最大化,硬件加速技術(shù)將在邊緣計算機和微云中起到關(guān)鍵作用。在處理諸如實(shí)時(shí)機器學(xué)習等任務(wù)時(shí),多核處理器本身會(huì )很慢且能耗很高。一種加速選擇可以是用一個(gè)通用圖形處理單元(GPGPU)或視覺(jué)處單元(VPU)來(lái)增強多核CPU。GPGPU和VPU被用于一些嵌入式系統中,來(lái)運行機器學(xué)習和數據分析算法,因為它們擁有高度并行化的浮點(diǎn)運算單元,可以為很多并行的神經(jīng)元集合多輸入,而且這種做法比CPU的集群要快得多;即便是高端CPU供應商,也已經(jīng)在整合其大規模并行單指令多數據(SIMD)單元(如Intel的AVX512 和ARM的NEON)來(lái)彌補這種差距。
強調GPGPU中浮點(diǎn)運算的峰值性能,使得這種架構不適合具有能量約束性系統,因為GPGPU通常需要將能耗等級維持在150W以上。甚至在機器學(xué)習中,使用GPGPU和VPU還會(huì )有一些缺點(diǎn),這類(lèi)器件的首要設計目的是加速涉及諸如卷積等操作的2D和3D圖形以及圖像應用。它們將自己用于深度神經(jīng)網(wǎng)絡(luò )的卷積層,但是其他類(lèi)型的操作會(huì )引起存儲訪(fǎng)問(wèn)方面的麻煩。最高池化和全連接層將重點(diǎn)放在虛擬神經(jīng)元之間的數據傳輸上,使用了并不適合其存儲結構的訪(fǎng)問(wèn)模式。更進(jìn)一步的問(wèn)題是,它們將重點(diǎn)放在了浮點(diǎn)和矩陣運算上,使得GPGPU和VPU很難適合那些在邊緣計算機中需要加速的其他應用?;诳删幊逃布翘幚砥鞯慕鉀Q方案則提供了自由度,可以?xún)?yōu)化虛擬神經(jīng)元之間的數據傳輸??删幊逃布€提供了自由度以適應范圍更廣的、要求邊緣計算機去執行的任務(wù)。
產(chǎn)品及技術(shù)方向
Achronix多年以來(lái)一直在為可編程邏輯領(lǐng)域提供創(chuàng )新,在性能、功耗和成本領(lǐng)先性方面樹(shù)立了行業(yè)標準。
2013年,Achronix發(fā)布了Speedster22i FPGA系列產(chǎn)品,從而推出了業(yè)內最先進(jìn)的FPGA產(chǎn)品,該系列帶有用于高性能有限應用的嵌入式系統級知識產(chǎn)權(IP)產(chǎn)品。Speedster22i系列產(chǎn)品是首款特定應用型FPGA芯片,支持了全新的、具有創(chuàng )新性的高性能可編程設計。
2016年10月,Achronix宣布其可集成至客戶(hù)SoC中的Speedcore嵌入式FPGA(eFPGA)IP產(chǎn)品開(kāi)始供貨;在發(fā)布此消息時(shí),Achronix已經(jīng)向多家客戶(hù)交付了Speedcore IP。從那時(shí)起,對Speedcore IP的需求空前高漲。Speedcore eFPGA IP是專(zhuān)為人工智能/機器學(xué)習(AI/ML)、高性能計算、汽車(chē)、5G無(wú)線(xiàn)通信和網(wǎng)絡(luò )等應用設計的。它和Speedster22i FPGA基于同一種高性能架構。
Achronix的所有產(chǎn)品都得到了我們自己強健的、經(jīng)過(guò)驗證的ACE設計工具的支持。ACE是一款功能強大的EDA工具,可以支持邏輯綜合、布局和布線(xiàn),還可提供時(shí)序收斂和調試工具。ACE工具可免費用于評估。
Achronix最近宣布已完成一款在16nm工藝上驗證了 Speedcore的測試芯片,該芯片采用臺積電(TSMC)的16FFplus-GL工藝制造,擁有11層金屬疊層;其中的一個(gè)高性能Speedcore eFPGA內核包含40,000個(gè)查找表、48個(gè)大小為20Kbit的RAM單元塊和72個(gè)DSP64單元塊。Achronix正在積極開(kāi)發(fā)其7nm產(chǎn)品,并計劃也將于近期將該產(chǎn)品推向市場(chǎng)。
中國市場(chǎng)策略
2017年是Achronix取得突破性發(fā)展的一年,公司成為了全球增長(cháng)速度最快的半導體公司之一。公司在2017年實(shí)現了巨大的增長(cháng),營(yíng)業(yè)收入比上年增長(cháng)7倍且超過(guò)1億美元。我們的所有產(chǎn)品都可為中國市場(chǎng)供貨,包括Speedcore、Speedster22i等等,中國是Achronix最重要的市場(chǎng)之一。
Achronix面向全球客戶(hù)提供產(chǎn)品和服務(wù),在中國設有專(zhuān)門(mén)的銷(xiāo)售和應用工程支持機構。Achronix的客戶(hù)橫跨數個(gè)目標市場(chǎng),從人工智能和機器學(xué)習到自動(dòng)駕駛、高性能計算和5G無(wú)線(xiàn)通信均有所覆蓋。憑借特定領(lǐng)域的專(zhuān)業(yè)知識和客戶(hù)在這些目標應用上取得的成功,以及強大的工程支持團隊,Achronix已經(jīng)完全做好準備來(lái)用自己基于FPGA的硬件加速技術(shù)和產(chǎn)品為中國半導體行業(yè)的快速增長(cháng)提供鼎力支持。
評論