亚洲AV成人片无码网站玉蒲团,男人10处有痣是富贵痣,AV亚洲欧洲日产国码无码苍井空,日韩午夜欧美精品一二三四区

凌云光技術股份有限公司

應用分享 | 軟件定義數據中心L1層全光交換解決方案

時間:2023-5-15 閱讀:1337
分享:

人工智能計算領域服務商NVIDIA公司,在OFC 2023會議上發表的“Software-defined, programmable L1 dataplane: demonstration of fabric hardware resilience using optical switches”論文中,介紹了其最新的工作成果,提出了一種用于數據中心網絡的可編程光纖結構設計,利用HUBER+SUHNER Polatis矩陣光開關將SDN擴展到L1。并在其HPC/ML測試臺上進行了實驗,利用可編程網絡自動從硬件或軟件故障中進行故障切換。

 

文章概述

軟件定義的控制平面徹底改變了網絡。應用程序可以按需求配置網絡,即使需要與其他負載共享網絡資源。如今,網絡基礎設施的深度編程可深入到第2層(L2),例如InfiniBand(IB)子網管理器(SM)是軟件定義控制器的最低級別。這意味著網絡的可編程性無法作用于物理基礎設施布線,通常來講物理基礎設施在部署后是固定的。我們通過引入一種工作流程,即將軟件定義的控制能力擴展到L1,來消除這一限制。軟件定義的物理層將網絡布線從剛性基礎設施轉換為可編程資源,允許在網絡運行時進行物理拓撲更改。這為各種過去不可行的、新的網絡操作奠定了基礎,但同時帶來了新的影響:需要在網絡堆棧的更高級別處理。

基于光開關的實現的在網絡運行時的L1可編程性使得幾個新應用得以實現。第一個也是我們當前評估的重點,是針對網絡結構(交換機、收發器和/或服務器)中的硬件故障和軟件故障提供彈性。失效對計算集群的利用率和效率的影響在整個行業都很明顯,這使創建彈性網絡變得非常重要。業務關鍵型應用程序需要保證持續可用性:停機意味著收入損失、客戶流失以及公司聲譽受損。L1可編程性的另一個潛在應用是根據應用程序需求修改網絡的物理拓撲,例如在胖樹的葉交換機之間創建環面/網格,以減少對延遲敏感的應用程序的通信時間。或在超額訂閱的網絡中,根據需要將帶寬分配給網絡的各個部分,以根據物理拓撲提供不同的QoS。L1可編程性還可以在物理層中應用隔離,斷開多個租戶之間的網元,或隔離已被識別為潛在威脅的主機。我們的PoC基于IB架構,但同樣適用于NVLINK和以太網。

由于無法更改物理連接,當前的故障恢復解決方案側重于通過調整轉發配置來盡可能排除故障路徑。例如在IB網絡中的軟件特性有SHIELD和利用替代路徑的自適應路由。這些協議有兩個顯著的局限性。首先,它們只能在存在替代路徑的情況下使用;葉交換機上的故障(將斷開服務器與網絡的連接)或服務器上的故障無法通過這種方式緩解。其次,他們無法恢復集群的全部性能。另一種增強彈性的方法是添加冗余硬件來備份整個或部分網絡(例如,Dual ToR)。這種方法的缺點是需要更多的硬件,資源未得到充分利用。

 

彈性系統的可重構結構

我們利用光開關來實現L1可編程數據平面。光開關可對光路進行重定位,光路的I/O排列由電接口定義控制。如圖1a所示,通過在給定網絡拓撲的交換層之間引入光開關,實現了點對點光纖連接排列的可編程更改。圖1a顯示了針對小規模二級(葉脊架構)胖樹中的彈性應用的網絡架構。在網絡中增加了冗余交換機(RS–冗余脊交換機和RL–冗余葉交換機)和冗余服務器。冗余設備與主網絡元件一并連接到光開關的可用端口。當檢測到設備故障時,對應的光開關會執行修正配置:斷開故障設備與網絡的連接,用冗余設備替換。該設計允許可編程的彈性程度(主設備和冗余設備的比率)根據系統要求而變化。此外,該體系結構可以隔離安全威脅,最大限度地減少維護期間的停機時間,同時作為通用的可編程數據平面。

我們設計并實現了相應的控制平面軟件,可以看作L1數據平面控制的SDN堆棧擴展。設計了圖形化后端來反映物理網絡拓撲結構(包括光交換部件),為控制器邏輯提供所需的系統建模支持。隨后,引入了一組概念和算法,允許SDN L1控制器識別給定部署的不同拓撲可能性,執行物理拓撲變化,并向L2層控制器發出信號以適應物理網絡的變化。圖1(b和c)顯示了系統控制回路,紫色的SDN L1(光纖結構管理器-OFM)是執行物理更改并向L2(在IB的情況下是子網管理器)發送通知的軟件。同樣地,可以擴展L2來請求物理拓撲更改。故障檢測機制(超出當前工作范圍)通知OFM需要更換設備。OFM計算并強制執行相應的光學連接,例如,在Leaf交換機故障的情況下,圖1a中的RL1將其替換。隨后,網絡控制器將RL1囊括在網絡中。該工作流程能夠在幾秒鐘內將網絡容量恢復到100%。此外,如本文下幾節所討論,我們正在進行防止設備故障導致的應用程序崩潰的工作。

圖片

圖1:  a)彈性體系結構概述 b)控制回路流程圖和 c)軟件概述

試驗臺說明

為了驗證網絡彈性,所有小規模POD連接中都配置了一個光開關,并在葉層和脊層各添加了一個冗余的IB交換機,以替換失效的葉交換機或脊交換機。測試臺由4臺DGX服務器和14臺IB交換機組成:其中8臺作為葉交換機,4臺作為脊交換機。兩個額外的IB交換機作為冗余設備:一個冗余葉交換機(RL,如圖1a所示)和一個冗余脊交換機(RS)。我們使用現成的L1光開關【POLATIS】。光鏈路則選擇了200 Gb/s CWDM可插拔光模塊,其顯著減少了所需的光開關端口,且有足夠的鏈路預算來支持光開關的損耗。DGX具有8個IB接口(8個通道),每個通道連接到不同的Leaf交換機。葉交換機與脊交換機完全連接,即沒有超額負載。所有連接都接入光開關,以進行各種實驗;當前評估重點關注IB交換機的更換。

實驗程序和結果

我們進行了交換機失效模擬,觸發SDN L1控制器搜索物理拓撲以減輕故障。冗余交換機接管了物理拓撲中故障交換機的角色,IB子網管理器接收到拓撲更改通知,該通知指示其修復L2網絡配置。通過適當地處理IB傳輸超時,運行中的應用程序可以在網絡更改后恢復運行。

圖2顯示了我們對UCX和NCCL集體通信庫的測試結果。在該測試場景中,進行了IB交換機故障模擬。圖表顯示了實驗中涉及的一個DGX的IB界面上的帶寬(y軸)隨時間(x軸)的變化,對于all-to-all和all-reduce的微基準測試。基準測試在4個DGX之間和接口之間產生相同的流量。我們運行微基準測試,模擬故障,并監控隨著時間的推移應用程序的性能和狀態。在Spine故障期間,由于活動鏈路的減少,系統的容量會降低,但應用程序有可替代路徑可用,不會崩潰。啟用彈性方案后,可以在幾秒鐘內恢復群集的全部性能(Spine故障切換)。在Leaf層發生故障(Leaf failover)的情況下,應用程序崩潰,受影響的IB接口將保持離線狀態,直到問題解決。啟用彈性方案后,應用程序在中斷幾秒鐘(目前約為7秒,但有待優化)仍能繼續運行,系統的全部容量也能夠恢復。

圖片

圖2:在啟用彈性解決方案的情況下,演示微基準的BW恢復:a)在左側OSU上,全部到全部,b)在右側NCCL上,全部減少。顯示所有鏈路隨時間變化的帶寬:黃色部分顯示Tx帶寬,而紫色部分顯示Rx帶寬。一個DGX的所有鏈路的圖都重疊。


?結論

我們提出了一個系統設計和工作流程,結合起來實現了L1的可編程性。構建了一個HPC/ML測試臺,并通過模擬交換機故障場景來評估彈性應用。通過添加光交換網絡和冗余設備,可在幾秒鐘內自動恢復全部容量;此外,可以避免在葉級故障期間發生的應用程序崩潰。在未來的工作中,我們計劃提供成本分析和其他實驗的詳細結果,包括其他應用。

 

凌云光自2001年起即關注光交換技術、產品與應用的推廣,2015年正式與全球光交換廠家HUBER+SUHNER Polatis公司建立戰略合作伙伴關系,共同開創光交換應用的新時代。

HUBER+SUHNER Polatis 提供低損耗的全光交換解決方案,用于遠程光纖層配置、保護、監控、重新配置和測試。基于可靠的、經過現場驗證的 DirectLight™ 光學矩陣開關技術,Polatis 動態光纖交叉連接可從8x8擴展到 576x576端口,并實現完全透明的連接,具有低損耗和無背反射,完全獨立于波長、功率或數據速率。動態光交叉連接是實現軟件定義的光網絡基礎設施自動化和虛擬化的關鍵要素。Polatis 支持RESTCONF和NETCONF,可輕松與 OpenDaylight 等流行的 SDN 控制器集成,還與前沿的傳輸 SDN 供應商合作,以支持新興標準并確保我們的客戶受益于可靠的 SDN 解決方案。


 

會員登錄

×

請輸入賬號

請輸入密碼

=

請輸驗證碼

收藏該商鋪

X
該信息已收藏!
標簽:
保存成功

(空格分隔,最多3個,單個標簽最多10個字符)

常用:

提示

X
您的留言已提交成功!我們將在第一時間回復您~
撥打電話 產品分類
在線留言