“東數(shù)西算”是我國為促進(jìn)數(shù)字經(jīng)濟(jì)發(fā)展、建設(shè)數(shù)字中國而推動(dòng)實(shí)施的一項(xiàng)國家戰(zhàn)略工程。算力和網(wǎng)絡(luò)的發(fā)展日益呈現(xiàn)一體共生趨勢,網(wǎng)絡(luò)從連接算力演進(jìn)為動(dòng)態(tài)感知算力、可定制承載算力,實(shí)現(xiàn)在網(wǎng)計(jì)算隨需隨算,算力無處不在。
數(shù)字經(jīng)濟(jì)發(fā)展對(duì)算力網(wǎng)絡(luò)提出重大挑戰(zhàn)
ChatGPT的出現(xiàn)讓“算力網(wǎng)絡(luò)”這一概念受到越來越多的關(guān)注,但美國通過限制相關(guān)技術(shù)和高端芯片的出口不斷對(duì)我國進(jìn)行擠壓,企圖通過5納米、7納米等高端GPU(圖形器處理)芯片對(duì)中國禁運(yùn),讓中國的算力尤其在智能算力方面永遠(yuǎn)落后于美國。面對(duì)這種情況,我們不僅要盡快突破算力網(wǎng)絡(luò)關(guān)鍵核心技術(shù),更要找到適合自身國情的算力網(wǎng)絡(luò)發(fā)展路徑。
以ChatGPT-3為例,它有1750億個(gè)參數(shù),其訓(xùn)練使用了微軟的人工智能計(jì)算系統(tǒng),該系統(tǒng)由1萬個(gè)V100GPU和28.5萬個(gè)CPU組成,每個(gè)GPU服務(wù)器擁有400Gb/s的網(wǎng)絡(luò)性能,這樣才能滿足訓(xùn)練所需約3640PF-days(即假如每秒計(jì)算一千萬億次,需要計(jì)算3640天)的算力。由于美國高端人工智能芯片禁售,我國若要滿足如此龐大的算力需求,除阿里、騰訊等大算力中心有這樣的能力外,對(duì)于普遍需要大模型訓(xùn)練的單位而言,比較現(xiàn)實(shí)的路徑就是把多個(gè)分散的數(shù)據(jù)中心通過網(wǎng)絡(luò)連接起來,形成算力集群,開展協(xié)同計(jì)算、并行計(jì)算等來彌補(bǔ)單個(gè)數(shù)據(jù)中心算力不足的劣勢。
然而,數(shù)據(jù)中心之間的連接和海量數(shù)據(jù)的傳輸又對(duì)網(wǎng)絡(luò)提出更高的要求,即要能實(shí)現(xiàn)超長距離無損數(shù)據(jù)傳輸。國際上做過相關(guān)試驗(yàn),在算力網(wǎng)絡(luò)條件下,如果丟包率大于1%,傳輸效率將下降50%;如果丟包率大于2%,傳輸效率則將接近于0。這對(duì)我們實(shí)現(xiàn)數(shù)據(jù)遠(yuǎn)距離無損傳輸提出很大挑戰(zhàn),因此,我們建議利用確定性網(wǎng)絡(luò),并結(jié)合RDMA(遠(yuǎn)程直接數(shù)據(jù)存取)等無損傳輸技術(shù)來提升國家整體算力和網(wǎng)絡(luò)資源效能。
確定性網(wǎng)絡(luò)技術(shù)成為推動(dòng)算力網(wǎng)絡(luò)發(fā)展的關(guān)鍵
確定性網(wǎng)絡(luò)技術(shù)得到國際同行的認(rèn)可,相關(guān)研究也有很多。例如,IETF(國際互聯(lián)網(wǎng)工程任務(wù)組)在2015年10月成立DetNet(確定性網(wǎng)絡(luò))工作小組,側(cè)重研究為網(wǎng)絡(luò)層數(shù)據(jù)傳輸提供確定性延遲、丟包、抖動(dòng)以及高可靠性的標(biāo)準(zhǔn)和能力;3GPP(第三代合作伙伴計(jì)劃)于R16、R17、R18標(biāo)準(zhǔn)先后支持IEEE(電氣與電子工程師協(xié)會(huì))TSN (時(shí)間敏感網(wǎng)絡(luò))協(xié)議的5G網(wǎng)絡(luò)系統(tǒng),確立5G系統(tǒng)的確定性機(jī)制并進(jìn)行標(biāo)準(zhǔn)化;美國能源部、國際電工委員會(huì)(IEC)等組織也都制定了相關(guān)標(biāo)準(zhǔn)。國內(nèi)方面,中國信息通信研究院聯(lián)合國內(nèi)多家網(wǎng)絡(luò)相關(guān)單位共同組建的網(wǎng)絡(luò)5.0產(chǎn)業(yè)和技術(shù)創(chuàng)新聯(lián)盟,開展DIP(確定性IP)研究;工業(yè)互聯(lián)網(wǎng)產(chǎn)業(yè)聯(lián)盟啟動(dòng)“時(shí)間敏感網(wǎng)絡(luò)(TSN)產(chǎn)業(yè)鏈名錄計(jì)劃”。
確定性網(wǎng)絡(luò)正成為未來網(wǎng)絡(luò)產(chǎn)業(yè)發(fā)展的核心,也是我國在網(wǎng)絡(luò)領(lǐng)域?qū)崿F(xiàn)“換道超車”的重要?dú)v史機(jī)遇。那么,如何實(shí)現(xiàn)網(wǎng)絡(luò)的確定性服務(wù)能力呢?這就需要一個(gè)新的網(wǎng)絡(luò)體系架構(gòu)?;舅悸肪褪前丫W(wǎng)絡(luò)軟硬件設(shè)備進(jìn)行解耦,將網(wǎng)絡(luò)資源盡量開放,功能細(xì)化,變成可重構(gòu)、可調(diào)度的模塊,實(shí)現(xiàn)網(wǎng)絡(luò)資源的靈活調(diào)度控制和按需配置?;诖?,我們?cè)谌蚵氏忍岢?ldquo;服務(wù)定制網(wǎng)絡(luò)(SCN)新型網(wǎng)絡(luò)體系架構(gòu)”,在網(wǎng)絡(luò)承載、網(wǎng)絡(luò)控制、網(wǎng)絡(luò)服務(wù)三個(gè)平面實(shí)現(xiàn)多項(xiàng)核心技術(shù)突破,改變傳統(tǒng)互聯(lián)網(wǎng)TCP/IP協(xié)議僵化和不可控問題,實(shí)現(xiàn)互聯(lián)網(wǎng)核心技術(shù)的自主可控和發(fā)展主動(dòng)權(quán)。
而這個(gè)架構(gòu)的實(shí)現(xiàn)需要有一個(gè)大網(wǎng)的操作系統(tǒng),它就像網(wǎng)絡(luò)的“超級(jí)大腦”一樣,能對(duì)整個(gè)網(wǎng)絡(luò)資源進(jìn)行實(shí)時(shí)數(shù)據(jù)采集和分析,對(duì)網(wǎng)絡(luò)進(jìn)行融合控制,從而確保網(wǎng)絡(luò)服務(wù)能力確定性可控。我國具有自主知識(shí)產(chǎn)權(quán)的大網(wǎng)操作系統(tǒng)目前已在400多個(gè)城市、1100多個(gè)節(jié)點(diǎn)的骨干網(wǎng)上穩(wěn)定運(yùn)行了5年。
在大算力場景下,確定性網(wǎng)絡(luò)在滿足數(shù)據(jù)高速、遠(yuǎn)距離、無損傳輸需求方面具有明顯的優(yōu)越性。從未來網(wǎng)絡(luò)試驗(yàn)設(shè)施(CENI)現(xiàn)網(wǎng)測試數(shù)據(jù)可以看出,基于確定性網(wǎng)絡(luò)技術(shù)的傳輸效率遠(yuǎn)遠(yuǎn)優(yōu)于傳統(tǒng)網(wǎng)絡(luò)技術(shù),如相較于FTP(文件傳輸協(xié)議)效率可提升36倍,相較于QUIC(快速UDP網(wǎng)絡(luò)連接)效率可提升15倍,且對(duì)于線路延時(shí)、丟包的魯棒性更好。因此,確定性網(wǎng)絡(luò)將成為支撐大算力應(yīng)用高速傳輸?shù)膱?jiān)實(shí)底座。
確定性網(wǎng)絡(luò)正在助力數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展
實(shí)際上,目前相關(guān)團(tuán)隊(duì)正在規(guī)劃將確定性網(wǎng)絡(luò)應(yīng)用在“東數(shù)西算”工程項(xiàng)目中,依托未來網(wǎng)絡(luò)試驗(yàn)設(shè)施建設(shè)連接“東數(shù)西算”八大樞紐節(jié)點(diǎn)數(shù)據(jù)中心的“確定性新總線”,項(xiàng)目完成后將極大地提升我國算力資源使用效率,為電力、氣象、能源等重大應(yīng)急安全領(lǐng)域提供安全、可靠、高效的網(wǎng)絡(luò)支持能力,助力我國數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展和碳達(dá)峰、碳中和目標(biāo)的實(shí)現(xiàn)。
ChatGPT的出現(xiàn)加速了人工智能大模型時(shí)代的到來,未來每個(gè)行業(yè),甚至每個(gè)企業(yè)都可以擁有自己的大模型,這要求網(wǎng)絡(luò)能夠提供全域確定性服務(wù)能力。目前,我國已基于未來網(wǎng)絡(luò)試驗(yàn)設(shè)施構(gòu)建了覆蓋全國35個(gè)城市的廣域確定性網(wǎng)絡(luò),可實(shí)現(xiàn)跨一萬公里數(shù)據(jù)傳輸,端到端的時(shí)延抖動(dòng)小于50微秒,做到零丟包、不亂序,可為將來不同行業(yè)、不同場景下的大模型訓(xùn)練提供確定性網(wǎng)絡(luò)支撐能力,大大提升了大模型的生成效率。
此外,確定性網(wǎng)絡(luò)還可為工業(yè)互聯(lián)網(wǎng)、能源互聯(lián)網(wǎng)、元宇宙、科學(xué)研究等典型場景提供高效的網(wǎng)絡(luò)支撐能力。以“中國天眼”——500米口徑球面射電望遠(yuǎn)鏡(FAST)為例,當(dāng)前,F(xiàn)AST每小時(shí)產(chǎn)生超過7TB的巡天數(shù)據(jù),這對(duì)網(wǎng)絡(luò)傳輸、數(shù)據(jù)存儲(chǔ)、計(jì)算處理能力都帶來嚴(yán)峻挑戰(zhàn)。項(xiàng)目團(tuán)隊(duì)依托未來網(wǎng)絡(luò)試驗(yàn)設(shè)施,建立算網(wǎng)融合的FAST巡天科研環(huán)境,協(xié)助FAST團(tuán)隊(duì)突破海量科學(xué)原始數(shù)據(jù)的快速傳輸、高通量計(jì)算難題,極大地提升了技術(shù)創(chuàng)新效率。
面對(duì)互聯(lián)網(wǎng)下半場發(fā)展,即從消費(fèi)領(lǐng)域進(jìn)入實(shí)體經(jīng)濟(jì)的歷史機(jī)遇期,確定性網(wǎng)絡(luò)有望解決傳統(tǒng)互聯(lián)網(wǎng)擁塞無序的問題,推動(dòng)互聯(lián)網(wǎng)從“盡力而為”到“確保所需”的技術(shù)體系變革。希望我們能抓住這一重大機(jī)遇,不斷突破確定性網(wǎng)絡(luò)核心技術(shù),不斷發(fā)展完善確定性網(wǎng)絡(luò)相關(guān)產(chǎn)業(yè)生態(tài),實(shí)現(xiàn)核心標(biāo)準(zhǔn)、芯片、設(shè)備的自主可控,引領(lǐng)算力網(wǎng)絡(luò)技術(shù)和應(yīng)用的發(fā)展。