超大規(guī)模數(shù)據(jù)中心網(wǎng)絡無論是在架構、技術還是運維上都發(fā)生了巨大的變革,有效地支持了互聯(lián)網(wǎng)和云計算過去10年的繁榮。展望未來,在人工智能、大數(shù)據(jù)、物聯(lián)網(wǎng)、云原生等技術和業(yè)務的驅動下,數(shù)據(jù)中心網(wǎng)絡該向何處發(fā)展是專業(yè)人士們必須考慮和面對的問題。該文結合行業(yè)發(fā)展測未來超大規(guī)模數(shù)據(jù)中心網(wǎng)絡的發(fā)展趨勢如下:
一 網(wǎng)絡帶寬持續(xù)演進,芯片是核心競爭力
在人工智能、大數(shù)據(jù)、機器學習,以及高清視頻、AR、VR等技術和業(yè)務的驅動下數(shù)據(jù)中心對網(wǎng)絡的帶寬需求將繼續(xù)呈加速發(fā)展的趨勢。數(shù)據(jù)中心交換機芯片在未來5年依然會處在加速迭代之中,芯片技術的摩爾定律會依舊有效,大概每隔2年交換機芯片的容量就會增長一倍。SerDe技術也在從10Gbit/s、25Gbit/s向50Gbit/s、100Gbit/s快速迭代,相應的光模塊技術也逐漸從25Gbit/s、50Gbit/s、100Gbit/s向400Gbit/s、800Gbit/s和Tbit/s級發(fā)展。交換機芯片技術和光芯片技術的持續(xù)迭代將有力保障數(shù)據(jù)中心網(wǎng)絡對帶寬的增長需求,而網(wǎng)絡帶寬的演進必然會牽引計算存儲架構的演進。
除了容量持續(xù)演進,芯片具備可編程能力將逐漸成為主流,對網(wǎng)絡可視化支持的力度將會成為芯片的核心競爭力之一。
二 硬件白盒化、OS開源、軟件自主掌控
SDN理念帶來設備解耦生態(tài)逐漸成熟,芯片商業(yè)化、硬件白盒化和定制化、軟件自主掌控將進一步普及。自主研發(fā)交換機設備不僅是為了節(jié)省成本,更是通過自主把控軟件、定制化硬件,做到軟硬件的一體化,這不僅可以快速迭代網(wǎng)絡功能來支持業(yè)務發(fā)展的需要,更能做到對網(wǎng)絡的靈活高效監(jiān)控,并最終把網(wǎng)絡變得更穩(wěn)定和智能,讓網(wǎng)絡真正成為核心競爭力。
目前,基于開源的開放生態(tài)已經(jīng)逐漸成熟,交換機操作系統(tǒng)可以依賴生態(tài)的力量,而互聯(lián)網(wǎng)公司可以專注在上層的軟件和運營管理系統(tǒng)。自主研發(fā)交換機設備將不再僅僅局限于幾個少數(shù)超大規(guī)模的互聯(lián)網(wǎng)和云計算公司,越來越多的公司將加入這一陣營。
在當下的開放生態(tài)環(huán)境下,開源操作系統(tǒng)更加有利于芯片、硬件和軟件的標準化和兼容性,有利于生態(tài)的良性發(fā)展,開源操作系統(tǒng)將會成為互聯(lián)網(wǎng)云計算公司的首選。值得一提的是,由微軟公司倡導,阿里巴巴作為主力成員推動的開源SONiC系統(tǒng)得到了業(yè)界的廣泛關注和支持。
三 軟硬件一體化的高性能網(wǎng)絡轉發(fā):網(wǎng)卡硬件卸載和可編程芯片
眾所周知,CPU的摩爾定律已入暮年,而云服務和機器學習規(guī)模卻在呈指數(shù)級增長。虛擬交換機是云數(shù)據(jù)中心網(wǎng)絡不可分割的一部分,但是基于服務器的網(wǎng)絡處理方案也并非一帆風順,40GbE甚至100GbE網(wǎng)絡架構的快速采用、服務器外部吞吐量大幅提升、網(wǎng)絡安全等附加功能的堆疊、大量虛擬機的增加,導致CPU資源被大量用于內(nèi)外部網(wǎng)絡和附加功能,使數(shù)據(jù)中心陷入了無休止的“機海戰(zhàn)術”,從而帶來了部署規(guī)模、應用效率、CapEx等多方面的挑戰(zhàn)。如何提升基于傳統(tǒng)x86服務器的虛擬網(wǎng)絡性能將變得至關重要。面對單服務器內(nèi)部的轉發(fā)能力的性能瓶頸,業(yè)界諸多的供應商試圖在FPGA、多核處理器及傳統(tǒng)網(wǎng)絡處理器上開發(fā)智能網(wǎng)卡(SmartNIC)解決方案。通俗地說,智能網(wǎng)卡是把服務器的網(wǎng)絡功能,包括vSwitch、vRouter等網(wǎng)絡組件從x86卸載到智能網(wǎng)卡上,實現(xiàn)對x86服務器處理器資源的釋放,提供更高性能的網(wǎng)絡處理性能。
SDN發(fā)展的第一波浪潮打破了管理平面、控制平面和數(shù)據(jù)平面的封閉集成,突出了軟件的作用,給網(wǎng)絡行業(yè)帶來了變革。但隨著SDN應用的進一步普及,純軟件的限制愈發(fā)明顯,如何更簡單有效地控制底層硬件和芯片層變得愈發(fā)重要。P4(Programming Protocol-Independent Packet Processors)正是在這一背景下應運而生的。對底層芯片開放的可編程的能力將會掀起下一波的SDN行業(yè)發(fā)展潮流,在軟硬件一體化、網(wǎng)絡可視化方面必然會再產(chǎn)生一次變革。
四 網(wǎng)絡融合成為一體化數(shù)據(jù)中心的 I/O:低延時網(wǎng)絡
網(wǎng)絡的功能不再是僅僅提供連接,網(wǎng)絡會變成計算機I/O的延伸。超高帶寬和超低延時的網(wǎng)絡正在將本地存儲和網(wǎng)絡存儲的界限變得模糊,為計算存儲分離和資源池化的數(shù)據(jù)中心一體化架構奠定基礎。網(wǎng)絡是數(shù)據(jù)中心一體化中的核心組件,成為下一代高性能計算和存儲的強大驅動力。如何降低網(wǎng)絡延時會是一個長期的過程,RDMA及同類技術將會逐漸成規(guī)模部署,在應用遇到瓶頸時,將會催生革命性的新技術或架構變革。
隨著人工智能、大數(shù)據(jù)的逐漸普及,數(shù)據(jù)中心對計算力的需求越來越高,超高密度異構計算集群將會成為基礎設施的核心競爭力。如何把計算芯片和高效存儲介質高效地互聯(lián)在一起,并能夠大規(guī)模擴展是需要解決的問題。數(shù)據(jù)中心網(wǎng)絡將不僅僅局限于交換機網(wǎng)絡,將進一步延伸到主機內(nèi)部,把主機內(nèi)各種計算芯片和存儲介質部件高性能地互聯(lián)在一起,并和交換機網(wǎng)絡融合為一體。傳統(tǒng)的以CPU為中心的服務器架構將會逐漸演變?yōu)橐詳?shù)據(jù)互聯(lián)1/0為中心的架構。網(wǎng)卡將突破傳統(tǒng)IO功能,充當硬件虛擬化載體,以及交換機網(wǎng)絡互聯(lián)和主機內(nèi)組件互聯(lián)的橋梁。基于硬件的高速網(wǎng)絡轉發(fā)、網(wǎng)絡QoS、網(wǎng)絡可視化等功能將被拓展到主機網(wǎng)卡上。
五 網(wǎng)絡可視化技術,基于大數(shù)據(jù)和人工智能的智能化運維
自動駕駛已經(jīng)變成可能,大規(guī)模應用只是一個時間問題。大規(guī)模網(wǎng)絡運維的自動化也必然是業(yè)界的趨勢,要達到自動駕駛或自動化運維都需要兩個共同的條件:一是有足夠有效的數(shù)據(jù),二是要有對數(shù)據(jù)的智能分析和處理能力。有效數(shù)據(jù)的獲取必然要通過網(wǎng)絡設備來實現(xiàn),交換機芯片的可視化功能將起著至關重要的作用。
傳統(tǒng)上我們對交換機設備的監(jiān)控和數(shù)據(jù)的獲取顆粒度很粗,一般停留在設備級別的運行狀態(tài),包括CPU、Memory、端口、各種表項的監(jiān)控等;對這些信息的獲取也只是SNMP、CLI等原始方式,獲取數(shù)據(jù)的效率很低。這些都無法滿足自動化運維的需求。新型的交換機芯片在網(wǎng)絡可視化方面已經(jīng)邁出了堅實可喜的一步,目前在市場上售賣的部分交換機芯片已經(jīng)能夠提供更豐富的信息,比如支持INT(In-bandNetwork Telemetry)功能,可以獲取特定用戶流的物理路徑、延時、交換機緩存水位等信息;MoD(Mirror on Drop)功能可以截取由于交換機管道或者緩存擁塞而導致的丟包信息。這些豐富的網(wǎng)絡數(shù)據(jù)通過人工智能分析系統(tǒng)將會把網(wǎng)絡運維提升到前所未有的智能化高度一一自驅式網(wǎng)絡(Self-driving Networks)。除了信息內(nèi)容,交換機獲取信息的方式和效率也有大幅度的提升,流遙測(Streaming Telemetry)功能可以通過軟件或者直接通過芯片把監(jiān)控數(shù)據(jù)高效地傳到網(wǎng)絡監(jiān)控系統(tǒng)中,對于關鍵信息的監(jiān)控顆粒度可以精確到微秒級。
六 光互聯(lián)趨勢
在10GbE速率之前,服務器與交換機比較經(jīng)濟的互聯(lián)方式是RJ45雙絞線互聯(lián)隨著速率的演進,對傳輸信號衰減要求愈發(fā)嚴苛,到25GbE 時代已經(jīng)全部統(tǒng)一到光纖或銅纜互聯(lián),到了下一代50GbE 或100GbE,銅纜的應用距離、范圍將進一步被壓縮;再往后演進,不僅設備間互聯(lián)銅纜將難以勝任,甚至設備內(nèi)部,從芯片到端口.都不得不采用光互聯(lián)。光互聯(lián)必將越來越普遍,光互聯(lián)技術的發(fā)展已經(jīng)成為影響網(wǎng)絡速率演進的重要因素之一。目前,數(shù)據(jù)中心內(nèi)設備間互聯(lián)模塊及線纜成本已經(jīng)遠高于。設備本身,如何控制、優(yōu)化光互聯(lián)成本對往后數(shù)據(jù)中心網(wǎng)絡成本影響巨大。
七 綠色網(wǎng)絡
隨著人工智能、大數(shù)據(jù)的逐漸普及,數(shù)據(jù)中心對計算力的需求越來越高,超高密度異構計算集群將會成為基礎設施的核心競爭力。計算力的大幅提升必然帶來對功耗需求的大幅上升,功耗和制冷是必須要解決的問題,是保障超大規(guī)模數(shù)據(jù)中心可持續(xù)發(fā)展的關鍵一環(huán)。
評論