在網計算技術的核心是將部分計算任務從主機側遷移至網絡側,在交換機、路由器、智能網卡、DPU處理卡等網絡設備完成計算加速,從而提升網絡吞吐量,降低網絡時延,減小總體能耗。傳統的網絡架構主要完成分組的高速轉發,將計算任務和計算結果在計算節點間高速傳輸。在數據中心網絡中,大規模分布式計算和存儲的需求日漸強烈,網絡傳輸日漸成為數據中心中分布式集群規模增大和能效提升的瓶頸。近年來,基于RDMA(remote direct memory access)協議的方案實現了數據中心網絡的大帶寬、低時延和無損,使得存儲和計算資源池化,一定程度解決了數據中心網絡傳輸的瓶頸。在此基礎上,具有較強算力的新型異構網絡設備,如可編程交換機、智能網卡和DPU處理卡等網絡設備可以協同完成諸如分布式機器學習結果聚合等輕量級計算任務,從而降低數據中心網絡內部的網絡流量。另一方面,由于計算任務在網絡中完成,不必再送往端側進行處理,可以降低計算任務和計算結果的傳輸跳數,大幅降低整體任務處理時延。
3 算力網絡部署方案
算力網絡的部署應用需要一個分階段演進和更新迭代的周期,初期可以通過集中式方案進行算力網絡的概念驗證,并適時在小規模網絡場景引入分布式方案,實現集中式與分布式協同部署方案。待分布式算力路由協議成熟穩定的中后期階段,實現分布式方案的規模部署。
3.1 集中式算力網絡部署方案
在算力網絡的集中式部署方案中,算網編排管理中心基于算力和網絡的全局資源視圖,根據網絡部署狀況,選擇管理面和控制面實現算力網絡協同調度。算力網絡集中式部署方案如圖5所示,網絡管理向算力編排器通告網絡信息,由算網編排調度中心進行統一的算網協同調度,生成調度策略,發送給網絡控制器,進一步生成路徑轉發表。需要網絡控制器收集網絡信息,將網絡信息上報至算網編排器,同時接收來自算網編排器的網絡編排策略,算網編排器負責收集算力信息,接收來自控制器的網絡信息進行算網聯合編排,同時支持將編排策略下發至控制器,算網編排器負責業務調度。算力編排器通過網絡管理平臺向算網控制器進行算力信息通告,算力編排器向網絡控制器算力信息通告,由網絡控制器進行統一的算網協同調度,生成調度策略,進一步路徑轉發表。
圖5 算力網絡集中式部署方案
3.2 集中式與分布式協同部署方案
集中式和分布式協同的算力網絡部署方案如圖6所示,算網管理編排層維護全局靜態算力和網絡拓撲信息, 算力資源和網絡資源實時狀態信息由算力路由層節點維護,在算力路由節點實現算網協同調度。
圖6 集中和分布式協同的算力網絡部署方案