采用Xilinx 和FPGA的DDR2 SDRAM存儲器接口控制器的設計
本白皮書(shū)討論各種存儲器接口控制器設計所面臨的挑戰和 Xilinx 的解決方案,同時(shí)也說(shuō)明如何使用 Xilinx軟件工具和經(jīng)過(guò)硬件驗證的參考設計來(lái)為您自己的應用(從低成本的 DDR SDRAM 應用到像 667 Mb/sDDR2 SDRAM 這樣的更高性能接口)設計完整的存
本文引用地址:http://dyxdggzs.com/article/148961.htm儲器接口解決方案。
20 世紀 90 年代后期,存儲器接口從單倍數據速率 (SDR) SDRAM 發(fā)展到了雙倍數據速率 (DDR) SDRAM,而今天的 DDR2 SDRAM 運行速率已經(jīng)達到每引腳 667 Mb/s或更高。當今的趨勢顯示,這些數據速率可能每四年增加一倍,到 2010 年,隨著(zhù)DDR3 SDRAM 的出現,很可能超過(guò)每引腳 1.2 Gb/s。見(jiàn)圖1。

應用通??煞譃閮深?lèi):一類(lèi)是低成本應用,降低器件成本為主要目的;另一類(lèi)是高性能應用,首要目標是謀求高帶寬。
運行速率低于每引腳 400 Mb/s 的 DDR SDRAM 和低端 DDR2 SDRAM 已能滿(mǎn)足大多數低成本系統存儲器的帶寬需求。對于這類(lèi)應用,Xilinx 提供了 Spartan-3 系列FPGA,其中包括 Spartan-3、Spartan-3E 和 Spartan-3A 器件。
高性能應用把每引腳 533 和 667 Mb/s 的 DDR2 SDRAM 這樣的存儲器接口帶寬推到了極限;對于這類(lèi)應用,Xilinx 推出了 Virtex-4 和 Virtex-5 FPGA,能夠充分滿(mǎn)足今天大多數系統的最高帶寬需求。
帶寬是與每引腳數據速率和數據總線(xiàn)寬度相關(guān)的一個(gè)因素。Spartan-3 系列、Virtex-4、Virtex-5 FPGA 提供不同的選項,從數據總線(xiàn)寬度小于 72 位的較小的低成本統,到576 位寬的更大的 Virtex-5 封裝(見(jiàn)圖2)。

高于 400 Mb/s 速率的更寬總線(xiàn)使得芯片到芯片的接口愈益難以開(kāi)發(fā),因為需要更大的封裝、更好的電源和接地-信號比率。Virtex-4 和 Virtex-5 FPGA 的開(kāi)發(fā)使用了先進(jìn)的稀疏鋸齒形 (Sparse Chevron) 封裝技術(shù),能提供優(yōu)良的信號-電源和接地引腳比率。每個(gè) I/O 引腳周?chē)加凶銐虻碾娫春徒拥匾_和板,以確保良好的屏蔽,使由同步交換輸出 (SSO) 所造成的串擾噪音降到最低。
低成本存儲器接口
今天,并不是所有的系統都在追求存儲器接口的性能極限。當低成本是主要的決定因素,而且存儲器的比特率達到每引腳 333 Mb/s 已經(jīng)足夠時(shí),Spartan-3 系列 FPGA配之以 Xilinx 軟件工具,就能提供一個(gè)易于實(shí)現、低成本的解決方案。
基于 FPGA 設計的存儲器接口和控制器由三個(gè)基本構建模塊組成:讀寫(xiě)數據接口、存儲器控制器狀態(tài)機,以及將存儲器接口設計橋接到 FPGA 設計的其余部分的用戶(hù)界面(圖3)。這些模塊都在 FPGA 資源中實(shí)現,并由數字時(shí)鐘管理器 (DCM) 的輸出作為時(shí)鐘來(lái)驅動(dòng)。在 Spartan-3 系列實(shí)現中,DCM 也驅動(dòng)查找表 (LUT) 延遲校準監視器(一個(gè)確保讀數據采集具有正確時(shí)序的邏輯塊)。延遲校準電路用來(lái)選擇基于 LUT 的延遲單元的數量,這些延遲單元則用于針對讀數據對選通脈沖線(xiàn) (DQS) 加以延遲。延遲校準電路計算出與 DQS 延遲電路相同的一個(gè)電路的延遲。校準時(shí)會(huì )考慮所有延遲因素,包括所有組件和布線(xiàn)延遲。

用戶(hù)界面是一種握手型的界面。用戶(hù)發(fā)出一條讀或寫(xiě)命令,如果是寫(xiě)命令的話(huà)還包括地址和數據,而用戶(hù)界面邏輯以 User_cmd-ack 信號回應,于是下一條命令又可發(fā)出。
在 Spartan-3 系列實(shí)現中,使用可配置邏輯塊 (CLB) 中的 LUT 來(lái)實(shí)現讀數據采集。在讀事務(wù)過(guò)程中,DDR 或 DDR2 SDRAM 器件將讀數據選通脈沖 (DQS) 及相關(guān)數據按照與讀數據 (DQ) 邊沿對齊的方式發(fā)送給 FPGA。在高頻率運行的源同步接口中采集讀數據是一項頗具挑戰性的任務(wù), 因為數據在非自由運行 DQS 的每個(gè)邊沿上都會(huì )改變。讀數據采集的實(shí)現使用了一種基于 LUT 的 tap 延遲機制。DQS 時(shí)鐘信號被適量延遲,使其放置后在讀數據有效窗口中具有足夠的余量,以在 FPGA 內被采集。
讀數據的采集是在基于 LUT 的雙端口分布式 RAM 中完成的(見(jiàn)圖4)。LUT RAM 被配置成一對 FIFO,每個(gè)數據位都被輸入到上升邊沿 (FIFO 0) 和下降邊沿 (FIFO 1)的FIFO 中,如圖4 所示。這些深度為 16 個(gè)輸入的 FIFO 異步運行,具有獨立的讀寫(xiě)端口。

來(lái)自存儲器的讀數據寫(xiě)到經(jīng)過(guò)延遲的 DQS 上升邊沿的 FIFO_0 中,并寫(xiě)到經(jīng)過(guò)延遲的DQS 下降邊沿的 FIFO_1 中。將讀數據從 DQS 時(shí)鐘域傳輸到存儲器控制器時(shí)鐘域就是通過(guò)這些異步 FIFO 完成的。在存儲器控制器的時(shí)鐘域中,可以從 FIFO_0 和FIFO_1 同時(shí)讀出數據。FIFO 的讀指針在 FPGA 的內部時(shí)鐘域中生成。寫(xiě)使能信號(FIFO_0 WE 和 FIFO1_WE)的生成通過(guò) DQS 和一個(gè)外部回送(亦即歸一化)信號完成。外部歸一化信號作為輸出傳送至輸入/ 輸出模塊 (IOB),然后通過(guò)輸入緩沖器作為輸入取出。這種技術(shù)可補償 FPGA 與存儲器器件之間的 IOB、器件和跡線(xiàn)延遲。從FPGA 輸入管腳發(fā)出的歸一化信號在進(jìn)入 LUT 延遲電路之前使用與 DQS 相似的布線(xiàn)資源,以與布線(xiàn)延遲相匹配。環(huán)路之跡線(xiàn)延遲應為發(fā)送給存儲器的時(shí)鐘和 DQS 之跡線(xiàn)延遲的總和(圖4)。
寫(xiě)數據命令和時(shí)序由寫(xiě)數據接口生成并控制。寫(xiě)數據接口使用 IOB 觸發(fā)器和 DCM 的90 度、180 度和 270 度輸出,發(fā)送按照 DDR 和 DDR2 SDRAM 的時(shí)序要求與命令位和數據位正確對齊的 DQS。
用于 Spartan-3 系列 FPGA 的一種 DDR 和 DDR2 SDRAM 存儲器接口實(shí)現已通過(guò)硬件進(jìn)行了充分驗證。一個(gè)利用 Spartan-3A 入門(mén)套件的低成本 DDR2 SDRAM 參考設計示例已完成。此設計為板上 16 位寬 DDR2SDRAM 存儲器器件而開(kāi)發(fā),并使用了XC3S700A-FG484。此參考設計僅利用了 Spartan-3A FPGA 器件可用資源的一小部分:13% 的 IOB、9% 的邏輯 Slice、16% 的 BUFG MUX 和八個(gè) DCM 中的一個(gè)。這一實(shí)現為其余部分 FPGA 設計所需的其他功能留下了可用資源。
使用存儲器接口生成器 (MIG) 軟件工具(本白皮書(shū)后面的部分有說(shuō)明),設計人員可以很容易地定制 Spartan-3 系列的存儲器接口設計,以適合自己的應用。
高性能存儲器接口
隨著(zhù)數據速率的提高,滿(mǎn)足接口時(shí)序方面的要求變得愈益困難了。與寫(xiě)入存儲器相比,從存儲器中讀數據時(shí),存儲器接口時(shí)鐘控制方面的要求通常更難滿(mǎn)足。追求更高數據速率的趨勢使得設計人員面臨巨大挑戰,因為數據有效窗口(此為數據周期內的一段時(shí)間,其間可獲得可靠的讀數據)比數據周期本身縮小得快。造成這種情況的原因是,影響有效數據窗口尺寸大小的系統和器件性能參數具有種種不確定性,它們縮小的速率與數據周期不同。
如果比較一下運行速度為 400 Mb/s 的 DDR SDRAM 數據有效窗口和運行速度為 667Mb/s 的 DDR2 存儲器技術(shù),這種情況就一目了然了。數據周期為 2.5 ns 的 DDR 器件擁有 0.7 ns 的數據有效窗口,而數據周期為 1.5 ns 的 DDR2 器件僅有 0.14 ns 的數據有效窗口(圖5)。

顯然,數據有效窗口的加速減損給 FPGA 設計人員帶來(lái)了一堆全新的設計挑戰,要創(chuàng )建和維護可靠的存儲器接口性能,就得采用更有效的方法。
正如 Spartan-3 系列 FPGA 中所實(shí)現的那樣,使用讀數據 DQS 可以把讀數據采集到可配置邏輯塊 (CLB) 中,但是使用 LUT 把 DQS 或時(shí)鐘與數據有效窗口中心對齊時(shí),所用的延遲 tap 卻很粗糙。CLB 中實(shí)現的延遲 tap 具有大約幾百微微秒 (ps) 的分辨率,然而,對于超過(guò) 400 Mb/s 的數據速率的讀取采集時(shí)序,所需的分辨率要比基于CLB 的 tap 高一個(gè)數量級。Virtex-4 和 Virtex-5 FPGA 采用 I/O 模塊中的專(zhuān)用延遲和時(shí)鐘資源(稱(chēng)為 ChipSync? 技術(shù))來(lái)解決這一難題。內置到每個(gè) I/O 中的 ChipSync模塊都含有一串延遲單元(tap 延遲),在 Virtex-4 中稱(chēng)為 IDELAY,而在 Virtex-5FPGA 中稱(chēng)為 IODELAY,其分辨率為 75 ps (見(jiàn)圖6)。

此實(shí)現的架構基于幾個(gè)構建模塊。用戶(hù)界面負責把存儲器控制器和物理層接口橋接到其余 FPGA 設計,它使用 FIFO 架構(圖7)。FIFO 有三套:命令/ 地址 FIFO、寫(xiě)FIFO、讀 FIFO。這些 FIFO 保存著(zhù)命令、地址、寫(xiě)數據和讀數據。主要的控制器模塊控制讀、寫(xiě)和刷新操作。其他兩個(gè)邏輯模塊執行讀操作的時(shí)鐘-數據中心對齊:初始化控制器和校準邏輯。

評論