<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>

新聞中心

EEPW首頁(yè) > EDA/PCB > 設計應用 > 以系統為中心的全層次納米級SoC設計方法學(xué)

以系統為中心的全層次納米級SoC設計方法學(xué)

作者:■Cadence公司Aurangzeb Khan 時(shí)間:2005-04-29 來(lái)源:電子設計應用 收藏

引言
2003年的收入達到了310億美元,隨著(zhù)通信行業(yè)及個(gè)人電子設備市場(chǎng)的快速發(fā)展,這一數字有望在2008年再翻上一番。其主要應用領(lǐng)域包括:數字蜂窩式移動(dòng)電話(huà)及基礎設施、存儲設備、視頻游戲機、消費類(lèi)顯示設備、圖形卡、數字電視、個(gè)人電腦用主板、寬帶接入設備以及DVD等。
個(gè)人電子設備需求的持續上升表示設計正發(fā)展到一個(gè)轉折點(diǎn),因為此類(lèi)系統的產(chǎn)品壽命一般都不會(huì )超過(guò)一年,而新產(chǎn)品的問(wèn)世周期為兩年。
研究表明,一項高科技新產(chǎn)品只要延遲上市6個(gè)月,其生命周期內的收入就要減少大概30%。而且,近年來(lái)這種商業(yè)影響有愈演愈烈之勢,有份報告指出,大容量存儲設備推遲三個(gè)月上市至少造成了5億美元的損失。
但是,在過(guò)去四年,芯片的一次、二次和三次設計的成功率正在逐步下降,目前,能夠實(shí)現一次成功的芯片設計還不到總量的39%。雖然功能設計和邏輯設計的錯誤是導致設計重制的最大影響因素,但電子、物理及光學(xué)作用也正對芯片設計起著(zhù)越來(lái)越重要的影響。
本文詳盡地描述了三代開(kāi)發(fā)過(guò)程中所得到的工程設計結論,舉例說(shuō)明了這些設計方法在設計需求驅動(dòng)下的持續進(jìn)步,同時(shí)還提出了與最新開(kāi)發(fā)的設計技術(shù)同時(shí)獲得的新結論。

以系統為中心的
全層次設計方法學(xué)
基于模塊的全層次設計方法學(xué)通過(guò)同步實(shí)現多個(gè)VLSI規模的模塊設計和頂層設計達到了加快設計進(jìn)度的目的。
在業(yè)內首創(chuàng )的單芯片全雙工OC48流量管理器及ATM分裝重組(OC48 TM/ATM SAR)SoC的開(kāi)發(fā)期間,從網(wǎng)表到流片的全層次設計方法擴展到整個(gè)架構開(kāi)發(fā)以及RTL設計和驗證的過(guò)程之中(見(jiàn)圖1a和1b)。
該方法論延伸了結構/RTL級設計以及電子/物理設計之間的并行性(交錯推進(jìn)),也使得模塊設計與頂層設計能夠協(xié)同進(jìn)行。該方法包括兩個(gè)關(guān)鍵的部分:第一,利用定制的FPGA平臺來(lái)驗證RTL設計并開(kāi)發(fā)出“黃金RTL”(GRTL),該平臺提供的有效驗證吞吐量比起單仿真方法要高出70萬(wàn)倍;第二,GRTL的設計層次在開(kāi)發(fā)過(guò)程中保留了下來(lái),架構中同樣的模塊邊界、接口以及同樣的GRTL和FPGA分塊級擴大了同步設計的范圍,進(jìn)而使硅片設計的時(shí)間縮短了一半。
該芯片在8層金屬、0.15mm、1.2V的CMOS工藝中集成了大概7800萬(wàn)個(gè)(SRAM約占6600萬(wàn)個(gè))晶體管。SPI4.2接口以450MHz DDR運行,有效吞吐量可達900Mb/s。該芯片功率為6W,采用定制設計的1803 FCBGA封裝。電路的性能和系統驗證電路板如圖2a和圖2b所示。
第一款節約成本的、可升級的、160Gb/s的單芯片交換核心(SF:Switch-Fabric)處理器使用了320Gb/s共享存儲架構,使效率提高了8倍,并在8層金屬、130nm的工藝中集成了3000萬(wàn)個(gè)晶體管,64個(gè)SerDes端口以及4個(gè)3.125GHz的鎖相環(huán)。
在這個(gè)業(yè)內首個(gè)SoC芯片的開(kāi)發(fā)過(guò)程中,同時(shí)開(kāi)發(fā)出了基于電路并確保無(wú)沖突翻轉的三態(tài)總線(xiàn)構架,可以把整個(gè)頂層布線(xiàn)信號的數量減少3/4如每個(gè)三態(tài)總線(xiàn)的節點(diǎn)數從5400減少到了1400,使該設計能夠在現有的8層金屬中實(shí)現。
類(lèi)似于一個(gè)圓的獨特雙軸對稱(chēng)布局規劃(見(jiàn)圖3)使整個(gè)電路的連線(xiàn)總長(cháng)度最短并使頂層設計的布線(xiàn)堵塞最小化,從而優(yōu)化頂層布線(xiàn)網(wǎng)絡(luò )(見(jiàn)圖4a),同時(shí)該元件的電氣功能正確,最大溫度梯度為25攝氏度(見(jiàn)圖4b)。
本集成電路是一個(gè)單芯片中的完整交換板,具有160Gb/s的吞吐量和不高于15W的功耗,并支持10Gb/s到80Gb/s的線(xiàn)路卡。本集成電路使可線(xiàn)性升級的系統的直接設計(straightforward design)具有160Gb/s到1.28Tb/s的吞吐量。圖5a和圖5b為測量得出的眼圖。
該設計方法在數千兆位(Multi-Gigabit)交換網(wǎng)絡(luò )系統的130nm芯片(Gb/s SNS IC)的設計與開(kāi)發(fā)過(guò)程中得到了進(jìn)一步改善,同時(shí)也開(kāi)發(fā)出新的設計技術(shù),使設計進(jìn)度加快了28%,電壓降(IR drop)減少到20mV以?xún)?,時(shí)鐘扭曲(clock skew)也小于90ps,在超過(guò)220萬(wàn)節點(diǎn)的網(wǎng)表中,只需要對其中少于0.1%的的節點(diǎn)進(jìn)行布線(xiàn)后優(yōu)化,同時(shí)滿(mǎn)足了新的片上變化(OCV)、可制造性設計(DFM: design-for-manufacture)和良率設計(DFY: design-for-yield)的要求(見(jiàn)圖6a和6b)。
因此,此芯片首次投片就滿(mǎn)足了功能設計和電子設計的需求,并在8層金屬的130nm低壓(LV) CMOS工藝中實(shí)現,同時(shí)集成了大概7600萬(wàn)個(gè)晶體管和高達625MHz DDR的時(shí)鐘,封裝形式為1932 FCBGA封裝。

電子/物理設計優(yōu)化方法
SoC設計中需要考慮的內容包括軟/硬件協(xié)同設計以及結構/RTL級設計和驗證。電子/物理設計需要考慮的內容包括:電源分布,時(shí)鐘架構和電學(xué)特性收斂(electrical convergence),后者還包括時(shí)序、片上以及輸入/輸出信號完整性,OCV、DFM和DFY所涉及的部分也要考慮在內。
頂層模塊級物理規劃的優(yōu)化
硅虛擬原型使模塊間和模塊內的可布線(xiàn)性需求可視化,對優(yōu)化布局規劃起到了直接的作用。此外,基于物理信息的邏輯網(wǎng)表重新綜合使得以連線(xiàn)為中心的設計自動(dòng)化過(guò)程進(jìn)一步得到優(yōu)化。在OC48 TM/ATM SAR SoC的開(kāi)發(fā)過(guò)程中,邏輯綜合的優(yōu)化使電路時(shí)序得到了明顯改善:布局前時(shí)序正確的網(wǎng)表在布線(xiàn)后有1182條沖突路徑,最差負間隙(negatire slack)為-2ns;而經(jīng)過(guò)邏輯綜合優(yōu)化的網(wǎng)表在布線(xiàn)后只有250條沖突路徑,最差負間隙為-0.3ns。
在Gb/s SNS IC的開(kāi)發(fā)過(guò)程中, 8個(gè)VLSI規模的不同模塊連同頂層模塊中超過(guò)210萬(wàn)個(gè)元件被并行設計,包括置入大約500個(gè)帶有預先設置時(shí)序約束的SRAM塊,用于預測時(shí)序收斂。該方法能夠使布局開(kāi)發(fā)和驗證、層次化設計以及網(wǎng)表優(yōu)化在1天內進(jìn)行3~5次迭代。
接下來(lái)對設計模塊進(jìn)行分組和尺寸調整,可以在1天內完成1次完整的設計迭代——從網(wǎng)表到布局后的靜態(tài)時(shí)序分析(STA)再到工程更改單(ECO)的生成。
芯片設計從最終的功能網(wǎng)表到流片能夠在大約8周之內完成,與以前的方法相比,該方法能夠使進(jìn)度加快28%。
基于圖形的布線(xiàn)技術(shù)
新一代基于圖形的布線(xiàn)技術(shù)已經(jīng)用于優(yōu)化最終布線(xiàn),與自動(dòng)布線(xiàn)技術(shù)的結合能夠在信號完整性、可制造性、可布線(xiàn)性以及時(shí)序之間進(jìn)行協(xié)同平衡。源自設計試探搜索方法和設計收斂規則的布線(xiàn)規則可用于優(yōu)化層選擇、層排序、平行走線(xiàn)長(cháng)度縮短、節點(diǎn)屏蔽以及整個(gè)布線(xiàn)拓撲。
在Gb/s SNS IC的開(kāi)發(fā)階段,基于精確的物理連線(xiàn)信息和內置的時(shí)序同信號完整性分析引擎,能夠同時(shí)進(jìn)行詳細布線(xiàn)及連線(xiàn)優(yōu)化,可使布線(xiàn)后還需要優(yōu)化的節點(diǎn)數減少到1/10:按照傳統布線(xiàn)技術(shù)開(kāi)發(fā)的具有約210萬(wàn)個(gè)節點(diǎn)的集成電路中一般有不到1%的節點(diǎn)需要布線(xiàn)后優(yōu)化;而該電路有著(zhù)220多萬(wàn)個(gè)節點(diǎn),在布線(xiàn)后卻只有不到0.1%的節點(diǎn)需要優(yōu)化。
時(shí)鐘分布
此類(lèi)設計一般包含25~40萬(wàn)個(gè)觸發(fā)器,在10~100個(gè)物理域中工作,其片上頻率為125~626MHz DDR。
時(shí)鐘樹(shù)綜合可以用于提供對由OCV引起的時(shí)鐘偏斜的不足控制以及對插入延遲的管理,因此,頂層模塊級時(shí)鐘分布網(wǎng)絡(luò )拓撲一般能基于每一主模塊中的觸發(fā)器,為該模塊定制開(kāi)發(fā)。此類(lèi)網(wǎng)表一般都不受網(wǎng)表修訂的影響,因而加快了設計進(jìn)度。此外,功率管理、模塊級插入延遲、壓擺率(slew rate)及相關(guān)的時(shí)鐘偏斜要求能夠獨立于頂層規劃進(jìn)行優(yōu)化。
在OC48 TM/ATM SAR SoC中,一個(gè)專(zhuān)為優(yōu)化觸發(fā)器分布、具有低電阻金屬RC延遲的全定制拓撲支持低于1%的占空比變化,并為源同步接口提供小于15ps的時(shí)鐘偏斜。
在160Gb/s SF SoC中,平衡的時(shí)鐘拓撲提供了小于60ps的模塊內時(shí)鐘偏斜和小于150ps的頂層最壞情況下的時(shí)鐘偏斜。頂層帶有緩沖鏈的手工布線(xiàn)可以實(shí)現匹配所有域的精確插入延遲。
在Gb/s SNS 集成電路中,最壞情況下頂層模塊間的時(shí)鐘偏斜小于30ps,模塊內的時(shí)鐘偏斜小于90ps。
時(shí)序及電子設計
能夠反映出邊界輸入/輸出負載及驅動(dòng)特性的精確“黑盒子”模型對于芯片時(shí)序和信號完整性驗證至關(guān)重要?;诜蔷€(xiàn)性的電流源模型和全分布式耦合RC布線(xiàn)模型的數字延遲計算器可用于計算全芯片路徑延遲、實(shí)現時(shí)序驗證并預先考慮信號完整性問(wèn)題。
數字的、非線(xiàn)性高效電流源模型(ECSM)用于表征瞬時(shí)驅動(dòng)充/放電流,專(zhuān)為各電路中的每一個(gè)輸入到輸出時(shí)序通路而創(chuàng )建,應用于特定節點(diǎn)的RC連線(xiàn)模型中,以計算驅動(dòng)點(diǎn)和受驅動(dòng)點(diǎn)雙方的信號壓擺率和連線(xiàn)延遲(見(jiàn)圖7a和7b)。
該技術(shù)通過(guò)生成和分級傳播ECSM模塊級模型到頂層來(lái)實(shí)現全層次時(shí)序設計。因此,在計算頂層延遲時(shí)能夠基于實(shí)際的模塊前邊界條件把設計層次也考慮進(jìn)去。
延遲計算精確性的提高對設計進(jìn)度的加快有著(zhù)直接的影響:在一個(gè)包含26萬(wàn)可放置對象和18.7萬(wàn)個(gè)節點(diǎn)的小型模塊的設計中,相對于全電路仿真,延遲計算的不確定性能夠從10%縮減到5%,從而使干擾時(shí)序的節點(diǎn)數從2807減少到1512。由于節點(diǎn)數量的減少而消除的不確定通路也就不再需要投入額外的工程設計工作了。
電源分布
M6到M8上符合物理規則的拓撲一般都用于此類(lèi)集成電路中的電源分布(主要因為這些金屬層有著(zhù)大概低于50%的電阻系數)。
在Gb/s SNS 集成電路中,RDL層中接近60%的布線(xiàn)資源以及M6、M7和M8各層中大概15%的布線(xiàn)資源都用于電源分布。最壞條件下的VDD和VSS IR 壓降總共加起來(lái)不超過(guò)20mV,其中芯片核心部分的VDD為1V,功耗為18W。
電源網(wǎng)絡(luò )中的IR壓降以及電遷移一致性通過(guò)對芯片中的電流建模來(lái)完成驗證,該模型以能精確反映出實(shí)際片上電源分布網(wǎng)絡(luò )情況的阻抗網(wǎng)孔為基礎,此類(lèi)網(wǎng)孔一般都包含3000萬(wàn)到3億個(gè)電阻來(lái)保證對電流的精確建模。
功率管理
該設計方法論經(jīng)過(guò)擴展,能在自動(dòng)布局布線(xiàn)模塊中支持多個(gè)電壓域(包括電壓接口單元的管理)及多個(gè)開(kāi)啟電壓電路,可以降低動(dòng)態(tài)功耗和漏電流。在一個(gè)包含大概28萬(wàn)個(gè)元件(以及額外的SRAM塊)、工作頻率為300MHz的設計時(shí)鐘的開(kāi)發(fā)過(guò)程中,分析結果表明,該方法可降低42%的功耗(其中輸入/輸出單元功耗的降低約占50%)(見(jiàn)圖8a和8b)。
輸入/輸出和封裝設計
SoC電路一般都有超過(guò)200~1000個(gè)可同步切換的輸入/輸出端。通過(guò)優(yōu)化輸入/輸出電路、總線(xiàn)輸入/輸出、時(shí)鐘/控制器輸入/輸出、VDD/VSS 引腳分配、封裝設計以及封裝基板設計可以解決輸入/輸出并發(fā)開(kāi)關(guān)噪聲效應問(wèn)題。
對于160Gb/s SF SoC而言,建有14層布線(xiàn)的896腳FCBGA封裝可以支持10種不同的VDD 電源布線(xiàn),向芯片提供約12A的電流。該系統帶有1個(gè)散熱片以及1m/s的空氣流,可支持20W的功耗。封裝的基板設計考慮了每一個(gè)256 Tx/Rx信號(都在3.125Gb/s下運行)的位置,使串擾、布線(xiàn)長(cháng)度以及阻抗匹配變化最小,同時(shí)避免了電遷移問(wèn)題。

X架構
X 架構的主要特征是在中間和頂部金屬層全面使用45度布線(xiàn),能降低芯片內部20%的互連或布線(xiàn)資源。有代表性的X 架構布線(xiàn)如圖9a和圖9b所示。
采用X結構的RISC處理器核心的設計使芯片關(guān)鍵路徑的延遲縮短了19.8%,芯片面積減小了10%,4個(gè)主要模塊的連線(xiàn)總長(cháng)度也分別減少了13%~25%不等,同時(shí)通孔數量也相應有28%~37%的減少。這些結果對芯片的性能、功耗、面積以及成本都有著(zhù)重要影響(見(jiàn)圖10a)。
圖10b為傳統架構同X架構設計的靜態(tài)時(shí)序分析(STA)比較柱狀圖,使用X架構可將最壞情況下通路延遲間隙(slack)從-50ps增加到+940ps。
利用X架構的首款商用產(chǎn)品已經(jīng)實(shí)現,該芯片應用于數字電視領(lǐng)域,采用130nm CMOS工藝,集成了270萬(wàn)門(mén)電路,工作頻率為180MHz。在該設計中,M4和M5為45度布線(xiàn),借助X架構,使用了層次化設計方法論完成設計,與利用傳統技術(shù)實(shí)現的芯片相比,速度提高了11%,而面積減少了10%(見(jiàn)圖11a和11b)。

技術(shù)就備
技術(shù)就備(Technology Ready)能夠在新技術(shù)的預測性能與實(shí)際性能之間建立起清楚的相關(guān)性,有利于實(shí)現芯片一次設計成功,并在量產(chǎn)初期得到高的良品率。通過(guò)分析實(shí)際測試芯片的性能與預測性能之間的差異可促使設計師們采取措施來(lái)改進(jìn)性能。
第一款采用90nm CMOS工藝、含30萬(wàn)門(mén)的測試芯片已經(jīng)制造出來(lái)了(見(jiàn)圖12)。該設計在5層金屬上實(shí)現,M3/M4為45度布線(xiàn),與采用傳統技術(shù)的設計相比,總連線(xiàn)長(cháng)度縮短了14%,通孔數也減少了27%。
該方法可用于驗證65nm工藝中層和頂層連線(xiàn)中45度布線(xiàn)的可制造性。此類(lèi)中層連線(xiàn)的線(xiàn)間距(wiring pitch)將在2007年定義為195nm,在2010年減少到135nm,與此同時(shí),頂層連線(xiàn)的線(xiàn)間距將分別定義為290nm和205nm。
目前,連線(xiàn)線(xiàn)寬/線(xiàn)間距分別為113/113nm和113/226nm的測試芯片都已制造出來(lái)。在前一測試環(huán)境中,測量均值是117nm,3d極限為+/-7nm,即線(xiàn)寬(Critical Dimension)的6.2%;在后一測試環(huán)境中,平均值為115nm,3d極限為+/-10nm,即線(xiàn)寬的8.8%。
在該芯片中,同時(shí)采用了傳統構架和X構架,采用同樣的光學(xué)近似修正(OPC)、金屬填充(metal fill)、光罩流(mask flow)以及光刻技術(shù),并無(wú)需任何特殊的步驟,圖形在轉彎處以及Z型處有很高的保真度(見(jiàn)圖13a和13b)。

結語(yǔ)
本文向讀者展示了針對SoC開(kāi)發(fā)的電子/物理設計方法的主要特征,該方法始終都在為實(shí)現業(yè)內主流SoC的一次設計成功貢獻力量,也為及時(shí)實(shí)現SoC的商業(yè)目標同技術(shù)目標而推波助瀾?!?/P>

參考文獻
1 Gartner- Worldwide /ASSP, FPGA/PLD and SLI/SOC App. Forecast, 1Q04
2 Gartner- and FPGA Suppliers Answer the Call, Jan. 2004
3 A.Khan, "Recent Developments in High-Performance System-on-Chip IC Design," In Proc. IEEE ICICDT, May 2004
4 Collett International Research: 2000, 2002 Functional Verification Studies; 2003 Design Closure Study, Jan. 2004
5 Clark & Wheelwright, "The Product Development Challenge," HBS 1994
6 Craig Matsumoto, "But integration bandwagon not for everyone," EE Times, Oct. 1999
7 A.Khan, et al., "A 150 MHz Graphics Rendering Processor with 256Mb Embedded DRAM," Proc. ISSCC, pp. 150-151, 442, Feb. 2001
8 A.Khan et al., "Design and Development of the First Single-Chip Full-Duplex OC48 Traffic Manager and ATM SAR SoC," CICC, Sep. 03

依次為 圖1a-圖13a

依次為圖1b-圖13b



關(guān)鍵詞: Cadence SoC ASIC

評論


相關(guān)推薦

技術(shù)專(zhuān)區

關(guān)閉
国产精品自在自线亚洲|国产精品无圣光一区二区|国产日产欧洲无码视频|久久久一本精品99久久K精品66|欧美人与动牲交片免费播放
<dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><small id="yhprb"></small><dfn id="yhprb"></dfn><small id="yhprb"><delect id="yhprb"></delect></small><small id="yhprb"></small><small id="yhprb"></small> <delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"></dfn><dfn id="yhprb"></dfn><s id="yhprb"><noframes id="yhprb"><small id="yhprb"><dfn id="yhprb"></dfn></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><small id="yhprb"></small><dfn id="yhprb"><delect id="yhprb"></delect></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn> <small id="yhprb"></small><delect id="yhprb"><strike id="yhprb"></strike></delect><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn><dfn id="yhprb"><s id="yhprb"><strike id="yhprb"></strike></s></dfn><dfn id="yhprb"><s id="yhprb"></s></dfn>