中國超算服務(wù),誰(shuí)主沉???
最近,超算領(lǐng)域學(xué)術(shù)界和產(chǎn)業(yè)界人士圍繞“中國超算服務(wù)創(chuàng )新”展開(kāi)了一場(chǎng)熱烈的討論。
本文引用地址:http://dyxdggzs.com/article/201909/405110.htm起因是,北京并行科技股份有限公司(以下簡(jiǎn)稱(chēng)并行科技)總經(jīng)理陳健從超算建設投入產(chǎn)出比的角度提出,雖然中國超算近年來(lái)取得了矚目的成就,但超算服務(wù)的模式還很落后,特別是一些自建院系、單位級和用戶(hù)組級超算集群(統稱(chēng)為中小微超算),投入產(chǎn)出比遠不及大型超算,且年平均利用率低,這種“小農經(jīng)濟式”超算服務(wù)形態(tài),急需改進(jìn)、創(chuàng )新。
如何為科研提供更好的超算服務(wù),是中國超算的一大命題。
陳健提出的解決方案是“超算上云”。作為超算云服務(wù)提供商,陳健認為,超算的使用者大都要經(jīng)歷“國內外大超算平臺排隊上機——自建超算集群——租用超算——超算云服務(wù)”的過(guò)程,這是一個(gè)“從落后的生產(chǎn)力逐漸過(guò)渡到更先進(jìn)的生產(chǎn)力形式”。
以此為發(fā)端,超算領(lǐng)域學(xué)術(shù)界、產(chǎn)業(yè)界人士從各個(gè)角度給出了他們的理解和思考。
超算“全盤(pán)云化”有其局限
之所以以“小農經(jīng)濟”類(lèi)比,在陳健看來(lái),自建超算集群就好比自種“兩畝自留地”,這些自建的中小微超算有些浪費,不如大家都把需求集中起來(lái),把無(wú)數的“兩畝地”匯集成“萬(wàn)畝良田”,大家通過(guò)超算云服務(wù)的形式,從大型超算上按需購買(mǎi)計算資源,不但可減少浪費,還能提高應用效率。
相應的,陳健把并行科技比作“制造大型農機具的”——只有大型超算(萬(wàn)畝良田)多了,“現代農機具廠(chǎng)商”才好開(kāi)張。
但是,超算全部上云(指服務(wù)模式,并非云計算),現實(shí)嗎?
虛擬化和云計算專(zhuān)家麻清剛提出,從技術(shù)上來(lái)講,限制超算“上云”的條件是網(wǎng)絡(luò )帶寬?!叭绻梢砸詷O低成本拉一條400G的網(wǎng)絡(luò )專(zhuān)線(xiàn),超算還真有可能全盤(pán)云化——但不一定都是公有云,私有云、企業(yè)云、行業(yè)云等形態(tài)都可能存在?!?/p>
但是,帶寬問(wèn)題目前很難逾越?!皫捹M用是阻礙我們去內蒙古建超算的最主要原因,節約的電費都給運營(yíng)商買(mǎi)帶寬去了?!北本┐髮W(xué)高性能計算平臺主任工程師、計算中心系統管理室主任樊春這樣說(shuō)。
內蒙古電價(jià)為每千瓦時(shí)0.26元。近年來(lái),西部地區利用“超低電費”的條件大力投建IT基礎設施,這對于一般的云計算中心來(lái)說(shuō)是個(gè)利好,但對于超算而言,并不一定可行。
樊春說(shuō),對于大部分超算用戶(hù)來(lái)說(shuō),速度和價(jià)格是排在前兩位的。超算中心對外提供計算服務(wù),只有同時(shí)滿(mǎn)足這兩點(diǎn),用戶(hù)才愿意買(mǎi)單。
且不說(shuō)“拉一條400G的網(wǎng)絡(luò )專(zhuān)線(xiàn)”是個(gè)很大的前提,僅超算服務(wù)“全盤(pán)云化”這一點(diǎn),中科院計算所研究員、國家超級計算濟南中心主任張云泉就不太認同。
他從超算需求的角度出發(fā),認為目前超算云服務(wù)只能支持一些中低端計算需求,那些更快、更大規模的需求,超算云服務(wù)的形式還提供不了,“就像當年網(wǎng)格計算聲稱(chēng)可全面取代超算一樣,超算服務(wù)全盤(pán)云化幾乎不可能”。
超算成本下降還需規模效益
樊春還提出一個(gè)問(wèn)題:“超算云技術(shù)管理上無(wú)法降低成本,從而無(wú)法降低對最終用戶(hù)的價(jià)格,這是超算云發(fā)展的最大障礙?!?/p>
這一觀(guān)點(diǎn)與陳健提出的觀(guān)點(diǎn)相悖。陳健此前在接受《中國科學(xué)報》采訪(fǎng)時(shí)稱(chēng),超算云服務(wù)商的角色,就是通過(guò)研發(fā)軟件和方案,以技術(shù)輸出提高超算集群的易用性和有效利用率,從而降低超算的使用成本——把超算的每核時(shí)成本降低至一毛錢(qián)。
二者的矛盾點(diǎn)在哪?
一個(gè)答案是:用戶(hù)規模。只有用戶(hù)規模上去了,兩人的觀(guān)點(diǎn)才能找到平衡點(diǎn)。
一方面,陳健認為樊春所在的北京大學(xué)校級高性能計算平臺,已經(jīng)有了足夠大的規模應用,規模效益已現,所以北大能夠給予用戶(hù)更低的價(jià)格;
另一方面,陳健也深知城域網(wǎng)光纖非常貴——他們就投建了從廣州超算到北京的城域網(wǎng)光纖專(zhuān)線(xiàn),之所以這么做,是因為并行科技也實(shí)現了規模效益,通過(guò)這條光纖專(zhuān)線(xiàn),并行科技有每年數千萬(wàn)元的超算云服務(wù)經(jīng)營(yíng)額。
“這(超大帶寬網(wǎng)絡(luò )光纖)是一個(gè)極具規模效益的基礎設施投入?!标惤「袊@。
那么,現在中國超算應用是否到了產(chǎn)生規模效益的節點(diǎn)?
陳健認為“是”。他給出了一組數據:并行科技依托各大超算中心資源提供的超算云服務(wù),現在已經(jīng)有近1.5萬(wàn)個(gè)客戶(hù),并行科技給用戶(hù)提供的超算價(jià)格,經(jīng)核算比自建超算低一半。此外,2018年并行科技超算云服務(wù)合同額已達2億元,預計2019年會(huì )達到3億元。
“這是無(wú)數科研工作者用腳投票的結果?!标惤≌f(shuō),長(cháng)此以往,中小微超算集群建設的越少,中國超大型國家級超算、大型地方超算、校級超算乃至公有云超算就發(fā)展得越好。
沒(méi)誰(shuí)能“一統江湖”
以云服務(wù)的方式提供超算資源,這塊市場(chǎng)上并不只有并行科技。阿里云等云計算巨頭,也“順手”做了超算的云服務(wù);一些大型超算中心,也探索了超算云服務(wù)的模式,國家超級計算天津中心就是一例。
“我們做超算云,是為了讓用戶(hù)用起來(lái)更好用?!眹页売嬎闾旖蛑行囊晃灰竽涿膶?zhuān)家說(shuō),“不管是超算云還是云超算,本質(zhì)是為用戶(hù)服務(wù)的形式。服務(wù)形式確實(shí)可以降低用戶(hù)使用門(mén)檻,讓用戶(hù)用起來(lái)更簡(jiǎn)單,但不應過(guò)分夸大使用模式(對中國超算實(shí)力提高)的作用?!?/p>
他認為,并非只有超算云才能解決現在的超算服務(wù)問(wèn)題。
阿里云高性能計算負責人、資深技術(shù)專(zhuān)家何萬(wàn)青也持類(lèi)似觀(guān)點(diǎn)。他說(shuō),超算是個(gè)大生態(tài)系統,中國是個(gè)超算大國,必然有各種模式的超算集群——有國家投資建設的,有諸如并行科技以SaaS和PaaS形式提供增值服務(wù)的,也有諸如阿里云等云計算公司提供的商用系統,“只要用戶(hù)認為他出的價(jià)格符合自己所需的價(jià)值,就是合理的”。
至于超算服務(wù)的價(jià)格,何萬(wàn)青認為:“價(jià)格永遠是市場(chǎng)行為,甲之蜜糖,乙之砒霜。有的用戶(hù)愿意出高價(jià)購買(mǎi),其他用戶(hù)也許棄之若敝履,這就是市場(chǎng)?!?/p>
何萬(wàn)青舉例說(shuō),一些科研型和渲染型客戶(hù),他只在靈感或者創(chuàng )作來(lái)了之后,才會(huì )啟動(dòng)計算的點(diǎn)對點(diǎn)模式,這時(shí)候資源靈活調度和自動(dòng)伸縮比線(xiàn)下性能優(yōu)化更重要——而這其實(shí)是云計算比較擅長(cháng)的領(lǐng)域。
“舉例是想說(shuō)誰(shuí)也別想一統江湖。大家各有所長(cháng),客戶(hù)、技術(shù)需求、業(yè)務(wù)特點(diǎn)和生態(tài)發(fā)展也是多樣性的?!昂稳f(wàn)青說(shuō)。
超算應該部分免費嗎
在超算平臺建設方面,陳健提出,事實(shí)上目前我國的國家級超算一直是不核算建設成本的,對重大應用采取免費或者低價(jià)支持的措施;一些高校超算,一般采取免費或低價(jià)使用手段,“其實(shí)都是虧本在服務(wù)校內用戶(hù)”。
對此,在超算領(lǐng)域從業(yè)多年的中科京云總經(jīng)理賀建海提出一個(gè)大膽的想法,“我認為國家級超算應該向基礎研究提供免費計算資源?!?/p>
曾在三家國家級超算中心工作、現任職于鵬城實(shí)驗室人工智能研究中心的王丙強認為,該出發(fā)點(diǎn)雖好,但在實(shí)際操作中,可能會(huì )帶來(lái)混亂:誰(shuí)會(huì )對免費的東西不動(dòng)心?
但他也提出,有關(guān)科技主管機構,確實(shí)應該考慮降低使用計算資源的成本和門(mén)檻。
張云泉也覺(jué)得,免費難免浪費,但面向基礎研究領(lǐng)域,超算可以嘗試提供盡量低的價(jià)格,降低獲取成本。
樊春結合他們在北大高性能計算平臺提供超算服務(wù)的經(jīng)驗提出,面向那些小規模短時(shí)長(cháng)、納入教學(xué)任務(wù)的超算使用需求,可以且應該免費,以降低學(xué)生學(xué)習的門(mén)檻;
而面向基礎科研,比較耗費資源的高性能計算任務(wù)是不能免費的,但是應該以極低的價(jià)格提供給科學(xué)工作者使用。
“收費是為了防止濫用資源,不是為了賺錢(qián)?!狈赫f(shuō),收費的價(jià)格要讓“挖礦”等無(wú)利可圖。
而低價(jià)格是為了降低用戶(hù)使用成本,符合“價(jià)格低—用戶(hù)大量使用—計算量大—出更優(yōu)秀結果的概率增加—超算為人類(lèi)的貢獻也更大”的邏輯。
樊春還提出,如果高性能計算免費的話(huà),就需要一個(gè)跨學(xué)科的專(zhuān)家委員會(huì )來(lái)分配資源。
不過(guò)他也認為,分配資源工作是非常耗費資源和精力的,協(xié)調的成本要“遠遠高于硬件的浪費”。
一位高能物理應用領(lǐng)域的匿名用戶(hù)認為,國內許多公共服務(wù)平臺類(lèi)的大科學(xué)裝置采用的模式是,國家財政支持裝置的運行經(jīng)費,除企業(yè)用戶(hù)外,裝置不得向科研用戶(hù)收費。用戶(hù)提出機時(shí)申請,用戶(hù)委員會(huì )對申請進(jìn)行評審篩選。
“事實(shí)上科研用戶(hù)的經(jīng)費也是從國家財政來(lái)的,倒一道手沒(méi)什么意義?!彼硎?,“這種只管建設不管運行的模式未必是好模式?!?/p>
一個(gè)問(wèn)題是,如果相關(guān)主管部門(mén)對科研級超算應用實(shí)行免費或低價(jià),超算行業(yè)還需要并行科技、阿里云超算這類(lèi)企業(yè)嗎?
樊春認為,還是需要的。
“這個(gè)行業(yè)雖然不如傳統云計算獲利空間大,但也的確有賺錢(qián)空間?!彼ㄗh,“超算云公司應該提升技術(shù)以及管理能力,努力提供更加便宜的資源、更優(yōu)秀的服務(wù)吸引用戶(hù),拓展整個(gè)高性能計算行業(yè)?!?/p>
評論