一種面向云架構的高性能網(wǎng)絡(luò )接口實(shí)現技術(shù)
1. 2.2內存訪(fǎng)問(wèn)效率
本文引用地址:http://dyxdggzs.com/article/270287.htm在絕大多數情況下,應用程序并不直接通過(guò)物理內存地址來(lái)訪(fǎng)問(wèn)內存,而是采用虛擬地址,當CPU收到內存訪(fǎng)問(wèn)指令時(shí)會(huì )先把虛擬地址轉換成實(shí)際的物理地址,然后進(jìn)行內存的訪(fǎng)問(wèn)操作。這種方式已經(jīng)被普遍接受,甚至被稱(chēng)作是IT時(shí)代最杰出的發(fā)明之一,但是這種非直接內存訪(fǎng)問(wèn)方式并不是沒(méi)有代價(jià)的,地址的翻譯需要通過(guò)頁(yè)表來(lái)完成,頁(yè)表通常情況下是儲存在內存當中的,訪(fǎng)問(wèn)速度很慢,為了解決這個(gè)問(wèn)題,大部分系統都采用了TLB(Tralaslation Lookaside Buffer)的方式,最近觸發(fā)的一些地址翻譯結果都會(huì )保存在TLB中,TLB實(shí)際上使用的是CPU的緩存(cache),訪(fǎng)問(wèn)速度非???,然而cache容量小,只有最近訪(fǎng)問(wèn)的一部分頁(yè)表項能保存下來(lái),因此出現了“TLB Miss”;當CPU發(fā)現當前虛擬地址無(wú)法在TLB里面找到相對應的表項時(shí),就引入了一個(gè)TLB Miss,此時(shí)CPU需要回到內存當中的頁(yè)表進(jìn)行查找,性能會(huì )顯著(zhù)降低。因此當程序需要進(jìn)行頻繁的內存操作時(shí),需要盡量減少TLBMiss的次數。當前系統定義的頁(yè)面大小一般是4k字節,當應用程序使用比如2G這樣的大內存時(shí),總共需要50多萬(wàn)個(gè)頁(yè)表項,這個(gè)數目是相當龐大的,同時(shí)因為只有一小部分的表項能夠裝載在TLB中,因此TLB Miss的幾率也很大。另外,一般情況下程序的虛擬內存空間都是連續的,但其對應的物理內存空間卻不一定是連續的,這樣會(huì )導致一次虛擬內存尋址操作可能需要進(jìn)行多次物理內存尋址操作才能完成,這也會(huì )成倍地增加內存訪(fǎng)問(wèn)消耗的時(shí)間。
1.3多核親和力
多核系統對提高系統的性能有很大的幫助,當前大部分系統的調度算法會(huì )把當前的任務(wù)放到最空閑的核上執行,這樣的好處是能夠增加CPU資源的利用率,但因為每個(gè)CPU核心都有自己獨立的寄存器和cache,當任務(wù)從一個(gè)核心遷移到另一個(gè)核心時(shí),會(huì )引發(fā)大量的核問(wèn)切換開(kāi)銷(xiāo),比如上下文切換,cache miss等等。另外,對于使用NUMA(Non-Uniform Memory Access)架構的系統而言,核間切換的開(kāi)銷(xiāo)會(huì )更大,在SMP(Svmmetric Multiprocessing)架構下,所有核心是通過(guò)共享接口訪(fǎng)問(wèn)內存的,因此每個(gè)核心訪(fǎng)問(wèn)內存的速度是一樣的,但在NUMA架構下,核心對內存的訪(fǎng)問(wèn)分為本地訪(fǎng)問(wèn)和遠程訪(fǎng)問(wèn)。核心訪(fǎng)問(wèn)本地內存的速度要比訪(fǎng)問(wèn)遠端內存的速度快很多,當任務(wù)從核心A切換到核心B的時(shí)候,如果它仍然使用之前在A(yíng)上分配的內存,那么其內存訪(fǎng)問(wèn)模式會(huì )從本地模式切換成遠程模式,從而引起內存訪(fǎng)問(wèn)速度的下降。
1.4共享隊列的訪(fǎng)問(wèn)
當把數據包從一個(gè)任務(wù)傳遞到另外一個(gè)任務(wù)的時(shí)候,需要用到共享隊列。通常情況下,在訪(fǎng)問(wèn)共享隊列的時(shí)候會(huì )用到Mutex鎖來(lái)保證訪(fǎng)問(wèn)的一致性。當應用程序申請Mutex鎖失敗之后會(huì )陷入內核態(tài)中睡眠,當鎖可用之后再從內核態(tài)切換到用戶(hù)態(tài)執行,這里也引入了上下文切換的開(kāi)銷(xiāo),而且當數據流量很大的時(shí)候,相應的開(kāi)銷(xiāo)也會(huì )非常大。為了消除這類(lèi)開(kāi)銷(xiāo),業(yè)界也提出了一些改進(jìn)的方法,比如自旋鎖(spinlock),自旋鎖一直在用戶(hù)態(tài)運行,不會(huì )陷入內核態(tài)中,因此也不會(huì )產(chǎn)生上下文切換的開(kāi)銷(xiāo),但是它還是存在一些弊端:一方面可能造成死鎖,如果一個(gè)線(xiàn)程拿到鎖之后被意外銷(xiāo)毀,其它等待此鎖的線(xiàn)程會(huì )發(fā)生死鎖;另一方面,當共享隊列和線(xiàn)程數量猛增時(shí),鎖的數量也會(huì )同時(shí)增加,對鎖的管理會(huì )給系統帶來(lái)很大的負擔。
2 HPNI實(shí)現原理
2.1傳統網(wǎng)絡(luò )接口實(shí)現模式的不足
從上述分析可以得出傳統網(wǎng)絡(luò )接口的實(shí)現主要有以下幾點(diǎn)不足:
(1)上下文切換開(kāi)銷(xiāo)太多,這些開(kāi)銷(xiāo)主要是由中斷、系統調用、鎖以及核間切換引入;
(2)內存拷貝的開(kāi)銷(xiāo)太多;
(3)內存訪(fǎng)問(wèn)效率不高,缺乏相應的優(yōu)化;
(4)采用帶鎖共享隊列進(jìn)行數據共享,引入額外開(kāi)銷(xiāo);
(5)收發(fā)包操作必須經(jīng)過(guò)Linux內核單線(xiàn)程完成,無(wú)法擴展成多核多線(xiàn)程模式從而提高性能。
2. 2 HPNI的原理
針對上述不足,提出了一種新型的網(wǎng)絡(luò )接口實(shí)現模式,如圖3所示。

圖3 HPNI網(wǎng)絡(luò )接口實(shí)現
評論