一個(gè)號稱(chēng)“萬(wàn)能”的CPU架構
來(lái)源:半導體行業(yè)觀(guān)察
我們所要討論的是擁有 128 核、每核 2×1024 位向量、5.7 GHz、1 TB/秒的 DRAM的龐然大物。有人說(shuō)我們的數據中心的熱余量用完了,這顯然是錯誤的,Tachyum 證明了這一點(diǎn)。在本文中,我們將介紹新設計與舊設計的比較,以及我們可以從 Tachyum 的披露中收集到哪些信息。
Tachyum Prodigy 2022
今天,Tachyum 仍然稱(chēng)他們的架構為“Prodigy”。但他們已經(jīng)根據客戶(hù)的反饋對其進(jìn)行了徹底改革。VLIW 捆綁包被更傳統的 ISA 取代, 硬件調度功能更強大,提高了每個(gè)時(shí)鐘的性能。緩存層次結構也發(fā)生了重大變化。2022 Prodigy 的變化足夠廣泛,以至于對 2018 年 Prodigy 所做的大部分分析都不再適用。
在高層次上,2022 Prodigy 仍然是一個(gè)非常廣泛的架構,具有巨大的向量單元:

但是將 ISA 綁定到硬件會(huì )產(chǎn)生前向兼容性問(wèn)題。例如,如果新架構具有不同的指令延遲,則必須設置不同的停止位。Tachyum 的潛在客戶(hù)不會(huì )接受產(chǎn)品世代之間的 ISA 更改。在實(shí)踐中,像將 ARM 支持添加到復雜的軟件項目這樣“簡(jiǎn)單”的事情可能需要 18 個(gè)月以上的時(shí)間。支持新的 ISA 必須是一次性投資,而不是每次 CPU 升級都會(huì )重復的投資。
最新的 Prodigy 架構通過(guò)放棄原來(lái)的 VLIW 方案轉而采用更傳統的 ISA 來(lái)解決這個(gè)問(wèn)題。指令有四個(gè)或八個(gè)字節長(cháng)。編碼不再包含“停止位”,這意味著(zhù)現在Prodigy 在硬件中進(jìn)行依賴(lài)性檢查,而不是依賴(lài)硬件來(lái)標記獨立指令組。前端和分支預測盡管放棄了 VLIW 設置,Prodigy 仍然可以維持每個(gè)周期 8 條指令——對于目標為 5.7 GHz 的 CPU 來(lái)說(shuō),這是一項了不起的成就。根據 Rado所說(shuō),這個(gè)內核寬度對于在 AI 和 HPC 負載中實(shí)現最大性能是必要的。在整數工作負載中,4 寬的內核就足夠了,而增加到 8 寬的內核只會(huì )將性能提高 7-8%。但是,AI 或 HPC 程序中的一次循環(huán)迭代可能會(huì )執行兩條向量指令、兩次加載、遞增循環(huán)計數器并有條件地分支。將內核寬度提高到 8 寬將使 Prodigy 在每個(gè)周期完成一個(gè)循環(huán)迭代。

Prodigy 的分支預測器也得到了改進(jìn)。BTB容量翻倍至2048條,預測算法是2018 Prodigy中g(shù)share one的改進(jìn)版。但總的來(lái)說(shuō),Prodigy 的預測器與最新的 AMD、ARM 和 Intel 高性能內核中的預測器不同。AMD 的 Zen 3 有一個(gè) 6656 入口的主 BTB。ARM 的 Neoverse V1 擁有 8192 個(gè) BTB 入口,而英特爾的 Golden Cove 擁有令人難以置信的 12K 入口 BTB。BTB 容量并不是唯一的缺點(diǎn)。Prodigy 繼續使用綁定到指令緩存的 BTB。這簡(jiǎn)化了設計,因為無(wú)需進(jìn)行單獨的 BTB 查找——L1i 查找為您提供指令字節和分支目標。AMD 的 Athlon 也做了類(lèi)似的事情,ARM 在 2010 年代中期使用了這個(gè)方案。但是來(lái)自 AMD、ARM 和 Intel 的現代內核已經(jīng)轉移到解耦 BTB,允許它們在代碼占用量超過(guò) L1i 容量時(shí)保持高指令帶寬。對于耦合的 BTB,L1i 未命中意味著(zhù) BTB 未命中。并且不知道下一個(gè)分支將去哪里,這大大降低了在指令緩存未命中后您可以有效預取的距離。但是 Tachyum 正在使用標準單元庫,并以非常高的時(shí)鐘速度為目標,而使用這些標準單元庫的解耦 BTB 被認為過(guò)于昂貴。
為了解決這個(gè)問(wèn)題,Tachyum 將 L1i 容量增加到 64 KB,是 2018 年 Prodigy 的四倍,以確保 L1i 失誤減少。Rado 指出,specint2017 中的 64 KB L1i 未命中率低于 0.5%。我們對 Ampere Altra 的 64 KB L1i 的觀(guān)察大致一致。更大的 L1i 還有助于提高電源效率,并最大限度地減少與 L2 帶寬上的數據端的爭用。

2022 Prodigy 還繼續依賴(lài)于相當過(guò)時(shí)和基本的 gshare 預測算法,而現代 CPU則使用更復雜的技術(shù),可以在給定的存儲預算下實(shí)現更好的預測精度。Tachyum 考慮構建更高級的分支預測器,但同樣,標準單元庫意味著(zhù)實(shí)現 TAGE 預測器會(huì )過(guò)多地降低時(shí)鐘速度。由于高時(shí)鐘速度要求,除了感知器預測器 - 您可以想象在一個(gè)時(shí)鐘周期內匯總一批權重需要做很多事情。包含本地歷史的方案也不可行,因為高獲取帶寬意味著(zhù)每個(gè)周期必須執行多個(gè)預測。具有本地歷史的多個(gè)預測將需要每個(gè)周期進(jìn)行多次歷史表查找。因此,Tachyum 堅持使用基于全局歷史的預測器,并且每塊 8 條指令進(jìn)行預測。這使分支預測器保持簡(jiǎn)單,同時(shí)讓它跟上 Prodigy 內核寬度所需的預測帶寬。

Rado 提到 Prodigy 的未來(lái)版本可以使用自定義單元,這將讓他們考慮更高級的分支預測器,同時(shí)仍然以非常高的時(shí)鐘速度為目標。相比之下,英特爾似乎在分支預測器中使用了在內核其他地方看不到的自定義 SRAM 單元。AMD 采用了不同的方法,將相同的 SRAM 單元用于分支預測器存儲、L1 指令緩存和微操作緩存。

Zen 3 展示了可以使用標準單元構建最先進(jìn)的分支預測器,盡管可能不是 Prodigy 的目標 5.7 GHz 速度。后端:巨大的向量單元和完整的 OoO?如果你不能有效使用它,那么建立一個(gè)巨大的內核并沒(méi)有多大意義。為此,Tachyum 放棄了他們 2018 年的設計,并在硬件中實(shí)現了深度重新排序功能。2022 Prodigy 可以跟蹤多達 256 條正在運行的指令,其中整數寄存器有 96 個(gè)重命名,向量寄存器也有同樣多的重命名。它可以重新排序過(guò)去的各種依賴(lài)項。根據 Tachyum 的描述,Prodigy 可以像 AMD、ARM 和 Intel 的內核一樣完全亂序執行。但不是使用更傳統的無(wú)序引擎,而是使用檢查點(diǎn)方案。對于可能導致異常的指令,例如未命中緩存的加載,Prodigy 會(huì )保存帶有寄存器狀態(tài)的檢查點(diǎn)。如果該指令確實(shí)導致異常,則該檢查點(diǎn)用于提供精確的異常處理。2022 Prodigy 可以保存多個(gè)檢查點(diǎn),而2018 Prodigy只能保存一個(gè)檢查點(diǎn)。這是一個(gè)重大改進(jìn),就執行單元而言,Tachyum 為 2022 Prodigy 配備了兩個(gè)巨大的 1024 位向量單元,并增加了向量寄存器寬度以匹配。因此,2022 Prodigy 的矢量寬度是 2018 Prodigy 的兩倍,并且矢量吞吐量比當今任何通用 CPU 都要高。甚至英特爾的 Golden Cove 也只有兩個(gè) 512 位向量單元。緩存子系統在重新設計 Prodigy 架構以在硬件中進(jìn)行更多重新排序,從而使其能夠為 AI/HPC 應用程序保證更多帶寬后,Tachyum 面臨著(zhù)保持這些內核輸入的挑戰,同時(shí),提供以高速時(shí)鐘運行的 1024 位向量單元也是一項艱巨的挑戰。首先,L1D 數據路徑的寬度增加了一倍,以匹配向量長(cháng)度的增加。在 5.7 GHz 時(shí),Tachyum 內核可以從其 L1D 以接近 1.5 TB/s 的速度加載數據。L2 可以在每個(gè)周期向 L1D 提供完整的 128B 高速緩存行,帶寬約為 730 GB/s。相比之下,英特爾的 L1D 和 L2 緩存的每周期負載帶寬是 Prodigy 的一半,AMD 則更落后。Zen 2 和 Zen 3 在 L1 和 L2 的每周期帶寬是英特爾的一半。當然,Prodigy 的時(shí)鐘頻率高于 Intel 或 AMD 當前的 CPU,因此具有巨大的緩存帶寬優(yōu)勢。

為了維持高帶寬和隱藏延遲,2022 Prodigy 改進(jìn)了內存級并行性 (MLP)。具體來(lái)說(shuō):

2022 Prodigy 還增加了緩存容量,以更好地處理具有大內存占用的負載。L1 數據緩存的容量翻了兩番,從 16 KB 增加到 64 KB。與 2018 Prodigy 相比,每核 L2 和 L3 緩存容量沒(méi)有增加,但 2022 Prodigy 放棄了單獨的 L2 和 L3 布局,轉而采用虛擬 L3 設置??臻e內核將允許活動(dòng)內核將其 L2 用作虛擬 L3,從而提高低線(xiàn)程負載的緩存命中率。當一個(gè)內核從它的 L2 驅逐一條線(xiàn)時(shí),它會(huì )檢查周?chē)膬群?,看看它們?L2 是否可以接受被驅逐的線(xiàn),只有屬于非活動(dòng)內核的 L2 緩存才會(huì )接受這些請求。
對我們來(lái)說(shuō),這個(gè)設置一點(diǎn)也不簡(jiǎn)單,并且圍繞這個(gè)虛擬 L3 的實(shí)現方式會(huì )有很多調整。聽(tīng)起來(lái)一個(gè)物理內存地址可以緩存在多個(gè)虛擬 L3 切片中,具體取決于哪些對應的內核處于空閑狀態(tài),更多的切片檢查意味著(zhù)更多的互連流量。Tachyum 還希望將數據盡可能靠近所占用的內核,而可能的位置越少意味著(zhù)這方面的靈活性越低。與 Intel、AMD 和 ARM 使用的更簡(jiǎn)單的方案相比,正確設置這個(gè)虛擬 L3 聽(tīng)起來(lái)像是多維優(yōu)化問(wèn)題。
地址轉換性能也很重要,因此 Tachyum 將最后一級 TLB 大小從 256 增加到 2048 個(gè)條目。在條目數方面,它與 Zen 2、Zen 3 和 Golden Cove 相匹配。為了進(jìn)一步提高 TLB 覆蓋率,Prodigy 確實(shí)以 64 KB 的頁(yè)面大小和 32 MB 的大頁(yè)面來(lái)處理更大粒度的任務(wù)。2048 個(gè)條目的 L2 TLB 將覆蓋 128 MB 和 64 KB 頁(yè)面。ARM 和 x86 主要使用 4 KB 頁(yè)面以及 2 MB 大頁(yè)面用于客戶(hù)端應用程序。較大的頁(yè)面大小往往會(huì )浪費更多的內存,但這對于通常具有數百 GB DRAM 的服務(wù)器來(lái)說(shuō)并不是什么大問(wèn)題。
內存帶寬
對于不適合緩存的工作負載,DRAM 帶寬可能是個(gè)問(wèn)題。正如我們之前提到的,Prodigy 的計算與內存帶寬比高于當前的 CPU 和 GPU。起初,Tachyum 試圖通過(guò)實(shí)現封裝 HBM 來(lái)解決這個(gè)問(wèn)題。但 HBM 的容量非常低,這意味著(zhù)如果 Tachyum 想要占領(lǐng)服務(wù)器市場(chǎng),它并不是一個(gè)可行的選擇。HBM 解決方案對于 HPC 和 AI 應用程序來(lái)說(shuō)是可以接受的,但 Rado 指出,Nvidia 已經(jīng)擁有該市場(chǎng)的大部分份額,而與服務(wù)器市場(chǎng)相比,剩下的市場(chǎng)很小。保留兩種內存選項是不可行的,因為芯片上沒(méi)有足夠的邊緣空間來(lái)容納 DDR 和 HBM 控制器。

但即使使用 DDR5-7200,Prodigy 的海量矢量單元和高時(shí)鐘意味著(zhù)它比其他 CPU 和 GPU 具有更低的帶寬與計算比。Tachyum 希望通過(guò)使用內存壓縮來(lái)縮小這一差距,這有點(diǎn)像 GPU 如何進(jìn)行增量顏色壓縮以降低帶寬需求。但與 GPU 不同的是,Tachyum 正在為 AI 和 HPC 應用程序調整內存壓縮算法。最后,Tachyum 以更大的粒度進(jìn)行 ECC,允許內存控制器使用一些 ECC 線(xiàn)路來(lái)代替傳輸數據。

為了提高 x86 二進(jìn)制文件的仿真性能,Prodigy 可以切換到“嚴格”內存排序模式。Tachyum 也在 QEMU 中完成了軟件工作以提高性能。就絕對值而言,30-40% 的性能損失仍然很?chē)乐?。但是運行所需的軟件比絕對性能更重要,如果芯片不能運行所需的軟件,那么世界上所有的性能都是無(wú)關(guān)緊要的,因此 Tachyum 已經(jīng)在 QEMU 中投入了大量精力,以確保硬件至少在發(fā)布時(shí)可用。
評估架構
Tachyum 對 Prodigy 進(jìn)行了大量修改,因此2018 和 2022 版本基本上是不同的架構??偨Y主要的管道變化如下:

對于 HPC 和 AI,我預計 Prodigy 將極具競爭力。它具有足夠的重新排序深度和內存級別的并行能力,可以充分利用內存帶寬。雖然它的內存帶寬與計算比率低于競爭解決方案,但 Prodigy 確實(shí)有很多技巧可以緩解這種情況。即使沒(méi)有這些技巧,Prodigy 仍然擁有比 AMD 的Milan 或者 Genoa更強大的 DRAM 子系統。富士通的 A64FX 確實(shí)具有相當的 DRAM 帶寬,但它使用 HBM,這極大地限制了它的內存容量。
服務(wù)器市場(chǎng)是一個(gè)更難的問(wèn)題。Prodigy 擁有不錯的大型 L1 緩存、不錯的重新排序能力、非常高的時(shí)鐘速度和高核心數。但是它的分支預測器遠遠不是最先進(jìn)的,每個(gè)核心的最后一級緩存容量很低(尤其是與 AMD 相比)。更糟糕的是,過(guò)渡到新的 ISA 對任何大公司來(lái)說(shuō)都是一件頭疼的事情。不過(guò),我認為 Prodigy 有一個(gè)不錯的機會(huì ),因為它的時(shí)鐘速度優(yōu)勢是如此之大,不僅可以掩蓋它的缺點(diǎn),更可以讓它在核心數量和單核性能方面都比其他所有人的服務(wù)器產(chǎn)品都具有優(yōu)勢。Tachyum 可以說(shuō)服人們使用他們的新 ISA 和羽翼未豐的軟件生態(tài)系統,以便利用 Prodigy 的高性能。
如果 Prodigy 快要實(shí)現其雄心勃勃的(高速)時(shí)鐘目標,它確實(shí)很有可能成為“通用處理器”,至少在紙面上是這樣。它將類(lèi)似于 GPU 的矢量吞吐量與 CPU 的單線(xiàn)程性能相結合。代價(jià)是極高的功耗。128 核 Prodigy 在加載矢量單元的情況下可以達到近 950W 的功率。即使是 32 核、3.2 GHz 低功耗 SKU 也被指定為 180W——并不比基于 Zen 2 的 Epyc 7502P 好,后者盡管使用了小芯片設置和較差的工藝節點(diǎn),但它以類(lèi)似的 180W TDP 提升到 3.35 GHz。在服務(wù)器中,整型計算不太可能使 Prodigy 消耗 TDP 數據所顯示的那么多功率。但是高 TDP 等級仍然是一個(gè)問(wèn)題,因為冷卻系統必須針對最壞的情況進(jìn)行設計。


如果我們就 Tachyum 的芯片圖而言,假設它占據 500 mm2,單個(gè) Prodigy 內核的空間遠低于 3 mm2,從而引發(fā)熱點(diǎn)問(wèn)題。
發(fā)熱問(wèn)題也須考慮。AMD 的 Zen 3 的時(shí)鐘頻率可以超過(guò) 5 GHz,但在低線(xiàn)程負載下面臨冷卻挑戰,因為它們的低核心面積意味著(zhù)非常高的熱密度。Tachyum 預計 Prodigy 將占據不到 500 平方毫米的空間。Tachyum 發(fā)布的模具平面圖效果圖表明,每個(gè)核心的尺寸小于 3 mm2。Zen 3 核心的面積約為 3.78 平方毫米,包括 L2。Prodigy 核心在某些領(lǐng)域可能不那么復雜,例如分支預測器,但在其他領(lǐng)域(例如向量單元)也更復雜。我認為當核心被推到 5.7 GHz 時(shí)很可能會(huì )出現熱點(diǎn)問(wèn)題。
最后一點(diǎn),考慮策略實(shí)用性的一種方法是查看其他公司采用相同策略的頻率。如果對于一家小型初創(chuàng )公司來(lái)說(shuō),采用 5 GHz 以上的 1024 位矢量單元的 8 位寬內核是可以實(shí)現的,那么 AMD、ARM 和英特爾在過(guò)去十年中肯定一直在偷懶。哦,把 Nvidia 也算上——他們的 Kepler、Maxwell 和 Pascal 架構有 32 位寬的 FP32 ALU,基本上是 1024 位?;蛘?,要讓一個(gè)廣泛的架構達到如此高的時(shí)鐘頻率真的很難,而且小型初創(chuàng )公司不太可能做到這一點(diǎn)。我并不是說(shuō) Prodigy 不可能達到 5.7 GHz,因為 AMD 的 Zen 4 顯然達到了 5.85 GHz。也許臺積電的 5nm 工藝就是這么神奇。但是通過(guò)巨大的矢量單元、高核心數和相對較短的流水線(xiàn)來(lái)實(shí)現這種時(shí)鐘速度看起來(lái)像是一座太遠的橋梁。因此,讓我們看看如果 Prodigy 未能達到其時(shí)鐘目標,它的競爭力將如何。
HPC and AI
即使沒(méi)有高時(shí)鐘,Prodigy 也有大量的吞吐量,這要歸功于巨大的矢量單元。即使在 3 GHz 下,它的浮點(diǎn)數處理能力也穩居 GPU 領(lǐng)域。與之競爭的 CPU 甚至不在同一個(gè)層次。

有趣的是,以較低的時(shí)鐘運行還為 Prodigy 提供了更平衡的計算吞吐量與內存帶寬的比率。在 5.7 GHz 時(shí),Prodigy 需要一些技巧來(lái)減少內存帶寬瓶頸。在 3 GHz 時(shí),相對于其內存帶寬,它的計算量仍然很大。但比例不那么不平衡。

其他 CPU 每個(gè) FLOP 的帶寬更高,但這主要是因為它們的吞吐量要低得多。GPU(和 A64FX)將其有利的帶寬與計算比率歸功于容量有限的緊密集成的內存子系統。與其他服務(wù)器芯片一樣,Prodigy 可以配備數百 GB 的 DRAM。GPU 通常不能。
因此,Prodigy 很有可能成為具有競爭力的 HPC 或 AI 芯片,即使它實(shí)現不了它的時(shí)鐘目標。除非出現重大缺陷,否則受吞吐量限制的 HPC 和 AI 應用程序可以從 Prodigy 的矢量單元中受益。Prodigy 最大的弱點(diǎn),比如軟件生態(tài)系統就顯得不那么重要,因為研究人員和 AI 人員通常開(kāi)發(fā)專(zhuān)門(mén)的系統。HPC 和 AI 代碼也應該足夠規則,以至于 Prodigy 較弱的分支預測器不會(huì )阻止它。

但ARM在服務(wù)器市場(chǎng)立足的背后還有其他因素。ARM 的內核以低功耗和高密度為目標。與英特爾和 AMD 不同,它們不會(huì )嘗試涵蓋廣泛的功率和性能目標。這種專(zhuān)業(yè)化讓 ARM 創(chuàng )建了適合云應用程序的更高核心數的芯片,同時(shí)保持在可接受的功率和成本目標范圍內。該專(zhuān)業(yè)化通過(guò)犧牲矢量吞吐量和峰值性能,從而使用較小的矢量單元和密集設計那些沒(méi)有那么高時(shí)鐘速度的單元。Prodigy 具有比任何 x86 芯片更大的矢量單元和更高的時(shí)鐘,因此它很有可能不會(huì )像 ARM 內核那樣縮減到低功耗。
如果 Prodigy 沒(méi)有達到如此高的時(shí)鐘,我認為他們沒(méi)有明確的方法來(lái)?yè)屨挤?wù)器市場(chǎng)的一部分。他們不太可能在高密度市場(chǎng)上超越 ARM。如果沒(méi)有巨大的時(shí)鐘速度優(yōu)勢,它們不太可能在低線(xiàn)程工作負載中擊敗 x86 內核。并且當 Tachyum 致力于讓 Prodigy 被流片出來(lái)時(shí),沒(méi)有人會(huì )坐以待斃。AMD 正在準備發(fā)布基于 Zen 4 的 Genoa 和 Bergamo。后者將擁有 128 個(gè) Zen 4 核心,并減少緩存設置,與 Prodigy 的核心數量相匹配。Ampere Computing 正在開(kāi)發(fā) Altra 的繼任者,它可能具有超過(guò) 128 個(gè)內核。Prodigy 當然會(huì )保留矢量吞吐量?jì)?yōu)勢,但矢量吞吐量并不是服務(wù)器市場(chǎng)的決定性因素,就像 HPC 和 AI 一樣。
結論技術(shù)趨勢通常是循環(huán)的。幾十年前,服務(wù)器、客戶(hù)端系統和超級計算機慢慢融合以使用類(lèi)似的硬件。例如,在 2000 年代后期,AMD 的六核 K10 芯片在客戶(hù)端系統中作為 Phenom X6 提供服務(wù),在服務(wù)器和超級計算機中作為 Opteron 2435 提供服務(wù)。但在過(guò)去十年中,這種趨勢一直在緩慢逆轉。超級計算機通常使用 GPU 加速來(lái)提高吞吐量,而針對 HPC 的 GPU 架構和針對客戶(hù)端平臺的架構之間的差異越來(lái)越大。Ampere 和亞馬遜已經(jīng)為云計算優(yōu)化了專(zhuān)門(mén)的服務(wù)器芯片。英特爾和 AMD 在所有三個(gè)類(lèi)別中仍然使用相同的架構,但即使這樣,它們也在定制芯片以適應不同的市場(chǎng)。例如,服務(wù)器形式的 Skylake 將額外的 L2 和矢量單元附加到核心上,并使用網(wǎng)狀互連。AMD 計劃以第二種形式發(fā)布 Zen 4,名為 Zen 4c,它以緩存容量換取核心數量,應該更適合云計算。
Tachyum 的 Prodigy 代表了逆勢而上的勇敢嘗試。它將 GPU 的矢量吞吐量與 CPU 的單線(xiàn)程性能相結合,但代價(jià)是高功耗。然而,我們仍然懷疑 Tachyum 如何在面臨所有障礙的情況下實(shí)現這一切。我們確實(shí)向 Tachyum 詢(xún)問(wèn)了他們是如何實(shí)現 500mm2 的 CPU 的,雖然我們無(wú)法透露他們告訴我們的內容,但我們仍然對他們在 N5 上實(shí)現這一點(diǎn)持懷疑態(tài)度,因為他們不僅擁有大量矢量單元,還由于芯片上有大量的 DDR5 和 PCIe 5的 PHY,導致的大規模模擬電路的數量。
即使 Prodigy 按計劃進(jìn)入市場(chǎng),它也將面臨激烈的競爭老牌玩家及其專(zhuān)業(yè)產(chǎn)品。使用單一架構服務(wù)于不同的細分市場(chǎng)將使 Tachyum 能夠利用其有限的工程資源擴大其業(yè)務(wù)范圍。但是,除了專(zhuān)注于工程工作之外,該策略并沒(méi)有太多優(yōu)勢。你不能僅僅因為兩者都使用相同的芯片,就讓服務(wù)器充當 HPC 節點(diǎn)的雙重職責。超級計算集群具有極高速的網(wǎng)絡(luò )和分布式存儲,因此節點(diǎn)可以一起解決同一個(gè)問(wèn)題。數據中心不會(huì )有同樣的高速網(wǎng)絡(luò ),因為響應互聯(lián)網(wǎng)請求不需要幾乎一樣多的帶寬。最后,Tachyum將面臨一場(chǎng)艱苦的戰斗,以建立圍繞其ISA的軟件生態(tài)系統,同時(shí)在途中遭受二進(jìn)制翻譯處罰。對于一家小型初創(chuàng )公司來(lái)說(shuō),要處理很多事情,我們祝他們好運。
*博客內容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀(guān)點(diǎn),如有侵權請聯(lián)系工作人員刪除。