# 構造化配線が AI ネットワークの パフォーマンスに与える影響





| 目次                 |                               |                                                                                              |  |
|--------------------|-------------------------------|----------------------------------------------------------------------------------------------|--|
| はじめに               | 3                             |                                                                                              |  |
| レイテンシ              | 4                             |                                                                                              |  |
| 信頼性                | 6                             |                                                                                              |  |
| ネットワークのパフォーマン      | ンス 7                          |                                                                                              |  |
| まとめ                | 11                            |                                                                                              |  |
| テストから判明した<br>重要な結果 | 11                            |                                                                                              |  |
| 参考文献               | 12                            |                                                                                              |  |
|                    |                               | $ \longrightarrow \ \land \$ |  |
|                    |                               |                                                                                              |  |
|                    |                               | $\checkmark / / / / / / / / / / / / / / / / / / /$                                           |  |
|                    |                               |                                                                                              |  |
|                    | $\langle \ \rangle \ \rangle$ |                                                                                              |  |
|                    | $\rightarrow$                 | $\langle \rangle$                                                                            |  |
| $\bigvee$          | $\bigvee$                     |                                                                                              |  |

トレーニングや推論を行う最先端の人工知能 (AI) や機械学習 (ML) システムでは、非常に高い帯域幅、低い (テール) レイテンシ、 数多くのアクセラレータ (GPU、TPU、その他の種類) を相互に接続 できるファブリックトポロジーが求められます。こうしたシステムでは、 InfiniBand (IB) リンクなど、バックエンドネットワークと呼ばれる、特化 した光ネットワークや、ネットワークトラフィックを最適化する拡張機能を 備えたイーサネットが使用されています。イーサネットのアップグレードに は、IEEE タスクフォースで既に開発されたものもあれば、Ultra Ethernet Consortium で現在開発中のものもあります。

AI のトレーニングには、逐次計算と、次に進む前に完了しなければならない通信 フェーズが含まれるため、そのパフォーマンスは、基盤となるネットワーク物理層の パフォーマンスに大きく依存します。テールレイテンシはこの計算シーケンス内の最 も遅いメッセージを送信する時間によって決定されるもので、トレーニング効率に大き く影響します。通信の遅延によって GPU 時間の最大 50% がアイドル状態となる可能 性があることが示されています。

通信ネットワークは、電気的リンクと光リンクの双方によって構成されます。電気的リンク (NVIDIA 固有の NVLink など) はノード内の GPU 間を接続し、非常に高い帯域幅と低レイテ ンシの通信を提供します。ただし、電気的リンクを使用して相互に接続することができる GPU の数は、これらのデータレートで必要となる高い周波数での銅伝導体の信号損失の高さによって 制限を受け、有効な距離がわずか数メートルになることがあります。結果として、電気的リンクによ る GPU の相互接続の拡張性は、こうした物理的な制限の制約を受けます。

AI の光バックエンドネットワークは、可能性としては数万の GPU への拡張性があり、一般的にスパイ ンスイッチとリーフスイッチを使用し、リーフスイッチとサーバーとの間にはレール最適化されたトポロ ジーを使用しています。図1(a) に示すこのような複雑なトポロジーは、設置が困難になる可能性がありま す。特に、サーバーノードとリーフスイッチとの間、およびリーフスイッチとスパインスイッチとの間に直接 のポイントツーポイント接続を使用する場合はなおさらです。直接接続を使用する AI ネットワークを実装する 際の困難さは、将来アップグレードが必要となったときにはさらに困難なものになります。多くのデータセンター で、AI モデルとそれらが提供するサービスの成長と歩調を合わせていくためには、将来的にはインフラストラ クチャのアップグレードが必要となります。ネットワークが単一のクラスターから複数のクラスターへと成長する につれ、直接のポイントツーポイント接続を使用している場合には、ネットワークの拡張と保守がより大きな 課題となっていきます。

ここで、構造化配線が重要な役割を果たすことができます。構造化配線には、設置、ドキュメント化、将来のアッ プグレードとネットワークの拡張性に寄与し、保守と配線管理を容易にするモジュラー性という特徴が備わって います。このホワイトペーパーでは、レイテンシ、信頼性、物理層パフォーマンスに関する懸念についても検 証します。



(a) Logical Topology

R1 R2 R3 R4 RS1 RS2 R5 R6 R7 **R8** N5 N21 N29 N9 N13 N18 N22 N15 N19 N23 L7 L8 N24 N8 N12 N16 N28 N32 N4 N20

(b) 4 Servers per Rack

R13 R15 R16 R1 R2 R3 R4 R14 RS1 RS2 N5 N29 N31 N6 N28 N30 N32

図 1

1 台の NVIDIA の拡張可能なユニットの例

(c) 2 Servers per Rack

(a) 32 サーバーノード (N) の論理的トポロジー (b) 32 サーバーノード、8 リーフスイッチ、4 スパイン (ラックあたり 4 サーバーと想定) の物理レイアウト (c) ラックあたり 2 サーバーを使用する場合の同一の論理トポロジーの物理レイアウト

> 重要な結果 構造化配線によってレイテンシに 悪影響が及ぶことはない

テストから判明した

## レイテンシ

構造化配線は、ポイントツーポイント接続と比較して、 より多くの接続ポイントをもたらします。光接続を追 加することで光損失が増加する可能性はありますが、 それによってレイテンシが増加することはありませ ん。反対に、構造化配線システムは、ポイントツー ポイントの直接接続よりも少ないケーブル余長にも かかわらず同等もしくはより優れた伝播レイテンシを 提供するため、配線経路の最適化と管理をより柔軟 に行うことができます。

Al ネットワークで使用される距離は比較的短い (SuperPod では 50m 未満、光の伝播遅延で約 250 ナノ秒に相当) ため、トランシーバーやスイッチ で発生するレイテンシの原因のほうがより重要となる 可能性があります。たとえば、FEC エンコーディング とデコーディングは、それだけで数百ナノ秒かかりま す。フレームバッファリングやキューイングなどの他 のスイッチプロセスは、さらに大きい伝播レイテンシ の原因 (数百~数千ナノ秒) となります。そのため、 ネットワークを通過するパケットのホップ数を減らす ことが、GPU 間で共有されるデータの遅延を低減す ることになります。

AI ワークロードは相互に接続された複数の GPU 間 の通信パフォーマンスに依存し、大規模な分散シス テムでは特にそれが顕著です。結果として、長い通 信遅延のあるネットワークセグメントは AI システム の運用に重大な影響を及ぼします。これらの条件下 で、テールレイテンシはレイテンシの絶対値や平均 値よりもより重要となります。

Spine-Leaf 構成やレール最適化トポロジーのような ネットワーク設計は、ネットワークをフラット化し、 GPU 間通信に必要なホップ数を削減することで、テー ルレイテンシの低減を図ります。レール最適化ファブ リックは、ノード内の高速内部リンク (例: NVLINK)を 活用することで、ネットワークのスケールアウト時に必 要となるホップ数を削減し、ネットワーク性能を向上 させます。レール最適化トポロジーでは、すべての サーバーの特定の GPU が同じリーフスイッチに接続 されている必要があります。たとえば、サーバー A の GPU 0 とサーバー B の GPU 0 はリーフ 0 に接続 されます。他の GPU についても同じ順序付けが行わ れ、図 2 に示すように、GPU 7 はリーフ 7 に接続さ れます。

図 2 (a-b) では、この構成によって相互接続のレイテンシが低減される仕組みも示しています。パート (a) のサーバー A の GPU 0 とサーバー B の GPU 7 との間の通信について、従来の方法ではリーフスイッチとスパインスイッチを経由する複数回のホップが必要です。ネットワーク上で信号がたどる経路を、経路

1a、2a、3a、4a として黄色の線で強調しています。 通信には 3 回のホップが必要です。リーフ 0 を経由 して経路 1a から経路 Path 2a に接続するホップ、 スパインを経由して経路 2a から経路 3a に接続する ホップ、リーフ 7 を経由して経路 3a から経路 4a に 接続するもう一つのホップです。それぞれのホップで、 電気から光、光から電気の変換、FEC エンコーディ ング/デコーディング、スイッチキューイングが必要で あり、すべてが遅延の増加要因となります。

対照的に、図 2(b) に示しているこのレール最適化構成 を使用すると、同じ GPU と通信するのに光ネットワー クでの 1 回のホップしか要しません。 これを可能にするために、サーバー A の GPU 0 は 内部の高帯域リンク (経路 1b) を使用してデータを同 じサーバー内の GPU 7 に直接送信します。続いて、 図に示すように、ノード A の GPU 7 とノード B の GPU 7 との間の通信では、リーフ 7 で経路 2b と経 路 3b とを接続する 1 回のホップが必要です。

AI ワークロードをスケールアウトするためのフラット なネットワークトポロジーの利点がお分かりいただけ たでしょうか。ただし、レール最適化ネットワークの ようなフラットなトポロジーを設置するには、正確な 接続が必須であり、直接のポイントツーポイント配線 を使用する場合、設置が複雑になります。構造化配 線によって、こうしたネットワークの設置と管理が容易 になります。



#### 図 2

レール最適化トポロジー構成を示しています。黄色の軌跡は、(a) リーフスイッチとスパインスイッチを使用する場合と、 (b) NVLINK とリーフスイッチを使用する場合のレイテンシとを比較するための信号経路を示しています。

### 信頼性

大規模な AI ネットワークで直接接続を使用すると、 多くの場合配線が乱雑で収拾がつかなくなりがちで す。相互接続とトランクのためのケーブル余長は、 直接接続では一般的に長くなり、推奨値よりも小さい 半径で曲げて設置されたケーブルが絡み合った状態 になってしまう可能性が高まります。これはストレス、 高損失、さらには恒久的なファイバーの損壊を引き 起こし、故障率が高まることにつながります。場合に よっては、ファイバーにかかるストレスは、時間の経 過と共にガラスの亀裂に発展する可能性があります。 こうした問題が発生すると、迅速な特定と解決が困難 になる場合もあります。対照的に、図3に示す、パッ チパネルを経由するパッチコードから分離されたトラ ンクを使用する構造化配線では、ケーブルの管理が 簡単になり、余長が削減されます。トランクはケーブ ルトレイを通じて経路が指定され、パッチコードは サーバーやスイッチに接続されます。これによりケー ブルの整理、保守の容易さ、さらには将来のネット ワークの拡張性に不可欠なアップグレードのしやすさ が向上します。

ネットワークのドキュメント化は、大規模なネットワークの信頼性を向上させるのに重要な役割を果たします。数千の光リンクを扱う場合はなおさらです。ネットワークの回路の経路とケーブルの経路が明確にドキュメント化されていれば、ネットワークエンジニアとサービス技術者は、問題が発生したときに迅速に接続を追跡できます。したがって、故障点の特定に費やす時間を回避することで重要な AI ネットワークのダウンタイムが削減される一方、保守とサービス

の費用の節約にもなり、AI システムに投じられた莫 大な資本の最適化にもつながります。米国電気通信 工業会 (TIA) の規格 TIA-606-C (通信インフラスト ラクチャ向けの管理規格) では、商用ビルでの通信シ ステムとネットワークシステム向けのラベル付けと データの記録に関するガイドラインが提供されてお り、これは TIA-568.3-D. などの構造化配線の規格 と整合性のあるものとなっています。ケーブルアセン ブリの両端を含むネットワークコンポーネントが出荷 時点であらかじめラベル付けされている RapidID<sup>™</sup> Network Mapping System のようなソリューション は、ネットワークのドキュメント化に大いに寄与します。

構造化配線は、よりよい整理状態とより容易な保守を もたらしますが、固有の課題もあります。一般的に、 構造化配線ではより多くの接続インターフェイスが必 要となります。ほとんどの設置環境はほこりやごみで 汚れており、コネクタの端子面に付着する可能性が あります。これによってコネクタの挿入損失 (IL) と反 射減衰量 (RL) が増加する可能性があり、ネットワー クのパフォーマンスの問題の原因となりかねません。

ただし、こうしたリスクは、規格のガイドラインを完 全に実装している高品質の製品を使用すること、お よびコネクタの端子面が汚れるのを防ぐ適切な設置 手順に従うことで最小化できるものです。結局のとこ ろ、優れた拡張性や管理のしやすさといった構造化 配線のメリットは、適切な注意を払えばこうした懸念 を上回ります。



## ネットワークのパフォーマンス

AI ネットワークは、モデルのトレーニングや推論の 最適なパフォーマンスを実現することを目的として、 利用可能な物理層の帯域幅を最大限に活用し、テー ルレイテンシを最小化するよう設計されています。

パケットの再送信が増加すると、テールレイテンシは 増大します。したがって、AI ネットワークのパフォー マンスにとって、チャネルのビット誤り率 (BER) を低 くすることは、パケット損失、およびその結果として のパケットの再送信を排除して、テールレイテンシを 制御するために、極めて重要です。チャネルの BER は、光ファイバー、コネクタ、トランシーバーの送受 信パフォーマンスに起因する信号の障害に依存しま す。ワーストケースでのチャネルのパフォーマンス 要件は、イーサネット、光ファイバーチャネル、 InfiniBand の規格団体によって指定されています。

たとえば、2024 年 3 月に公開された最新のイーサ ネット仕様 (IEEE 802.3df) では、マルチモードチャ ネル (800GBASE-SR8) およびシングルモードチャ ネル (800GBASE-DR8) について、8 デュプレック スレーン (16 芯) で、合計 800G のデータレートが 盛り込まれています。 IEEE 802.3df は、最長許容ファ イバー伝送距離を通過した後の信号品質について記 述しており、その際にワーストケースのトランシーバー が使用されることを前提としています。これにより、 フォワードエラー訂正 (FEC) 前のワーストケースの ビット誤り率 (BER) が得られます。 IEEE 802.3df では、フォトディテクタ受信回路の帯域幅と感度も、 その他のパラメーターと共に規定しています。規格 に基づく送受信機の性能テストは、製造現場で広く 使用されており、チャネルの BER を迅速かつ比較 的正確に推定する手段となっています。これらのチャ ネル性能仕様によって、ベンダー間の相互運用性が 実現しています。

AI ネットワークでの構造化配線に対する懸念の 1 つ が、チャネル性能のリスクとなる可能性のあるコネク タ損失の増加です。この議論に対する反論は簡単で す。イーサネットチャネル仕様に完全に準拠したトラ ンシーバーでは、MMF チャネル (800GBASE-SR8) では 1.5 dB、SMF チャネル (800GBASE-DR8) で は約 2.5 dB の接続損失が割り当てられています。た だし、AI ネットワークで使用される今日のトランシー バーは、固有のソリューションとなっており、こうした 懸念に対応するために IEEE に従っているとは必ずし も想定できなくなっています。これを理解するために は、実際のチャネル性能の試験データを IEEE 802.3df のワーストケースのチャネル仕様との比較で 示す必要があります。その目的に向けて、パンドウイッ

### テストから判明した 重要な結果

NVIDIA および他の IEEE 準拠の トランシーバーには構造化配線を 使用するための十分なヘッドルームがある

トではシングルモードとマルチモードの 800Gbps OSFP (オクタルスモールフォームファクタ) トランシー バーの評価を実施しました。これは InfiniBand と イーサネットプロトコルの両方をサポートしており、 NVIDIA DGX や HGX サーバーベースの AI クラス ターの設置で使用されています (図 4 上部)。図 4 (上 部) に示すように、テストは DR8 に準拠したトラン シーバーと NVIDIA 専用のトランシーバーの両方に ついて、直接接続アーキテクチャで行われました。

NVIDIA はシングルモード 800G 2xDR4 トランシー バーおよびマルチモード 800G SR8 トランシーバー を、IEEE 802.3df で規定された到達距離の 500m (SMF) および 100m (OM4 MMF) ではなく、それ ぞれ 100m (SMF) および 50m (OM4 MMF) に縮 小して提供していることに着目しました。評価を行っ た NVIDIA の仕様に基づいて、NVIDIA 800G-SR8 トランシーバーは IEEE 800GBASE-SR8 トランス ミッターおよびレシーバーの仕様に準拠しており、最 大 100m で 1.5 dB のコネクタ損失で動作が可能で あるということがわかりました。これを検証するため、 いくつかの異なる MMF を使用して、既製の NVIDIA 800G-SR トランシーバーの BER 性能を測 定しました。これにはワーストケースを示したモード 帯域幅も含まれています。また、異なるコネクタ損 失条件をシミュレーションするために、モードに依存 しない Keysight 製の減衰器を使用しました。この 直接的な BER 計測は、製造者が使用しているオシ ロスコープベースのテストより時間がかかりますが、 チャネル性能をよりよく表しています。

図 5 は、被試験送受信機、被試験ファイバー (FUT)、 コネクタ損失をシミュレーションするための可変光減 衰器からなる試験セットアップを示しています。マル チモードセットアップでは、FUT は 50m および 100m のワーストケースの規格に準拠した OM4 MMF と、当社の最高のパフォーマンスの、OM4+ Signature Core<sup>™</sup> として知られている OM4 ファイ バーで構成されています。後者はチャネルの分散を 補正するファイバーで、長距離のチャネル向けに長 年使用されているものです。 通常、データセンターアプリケーションで許容される BER は、1 兆送信ビットあたり1 ビットエラー (<1e-12)をはるかに下回ります。最大 25Gbps (レー ンあたり)のトランシーバーは、ゼロと1 の伝送にシ ンプルな2 レベル信号を使用し、エラー訂正スキー ムなしで BER <1e-12 を達成しました。今日の PAM-4 トランシーバーでは、1e-12 より大きい値の BER を達成するために FEC スキームを必要として います。こうした FEC コードでは、100 万送信ビッ トあたり 240 エラー (2.4e-4)までエラーレートを訂 正することができ、1 兆送信ビットあたり 1 エラー (1e-12)より優れた値を達成しています。

ワーストケースに準拠した OM4 ファイバー 50m を 使用した当社の実験では、BER を IEEE 仕様の ワーストケースの値である 2.4e-4 まで性能を低下さ せるのに、5 dB を超えるコネクタ損失を要しました。 また、トランシーバーは 100m を超えるワーストケー スの OM4 で、最大 3.5 dB のマージンをもって動 作することもわかりました。分散補正を備えた 100m の Panduit Signature Core ファイバーを使用する と、そのマージンは 5 dB を超える値となりました。



こうした結果が示しているのは、800G SR8 トラン シーバーは指定された 50m の到達距離で 1.5 dB の接続損失に耐えることができ、さらに、経年劣 化や温度変動に対応するための大きなマージン (>3.5 dB) があるということです。

同様に、NVIDIA 800G DR8 トランシーバーを標準 SMF の 100m および 500m で評価したところ、 2.5 dB を超えるコネクタ損失にも耐え、その後の経 年劣化に耐えるヘッドルームがもたらされることもわ かりました。さらに、100m で正常に動作するとされ ているトランシーバーが、500m でも良好に動作し、 その際に生じる不利益は無視できる程度でした。



### 800G DR4 – 100m および 500m シングルモードファイバー (SMF)

注: NVIDIA のトランシーバーは、IEEE 802.3df 規格よりも 4.8 dB 高い出力を提供します。 トランシーバーの出力は時間とともに劣化するため、安定した性能を維持するには通常 1.5 dB のマージンが必要とされています。

実際の結果は、ワーストケースのケーブルを用いた測定データよりも大幅に改善されることが期待されます。

### 50m マルチモードファイバー (MMF)





800G SR8 Pre-FEC BER (NVIDIA - Ixia)

800G SR8 Pre-FEC BER (NVIDIA - 100m 0M4 vs 100m SigCore)

| Ln 0 - btb     |
|----------------|
| — Ln 1 - btb   |
| — Ln 2 - btb   |
| — Ln 3 - btb   |
| Ln 0 - 50m 0M4 |
| Ln 1 - 50m 0M4 |
| Ln 2 - 50m 0M4 |
| Ln 3 - 50m 0M4 |

注: NVIDIA のトランシーバーは、IEEE 802.3df 規格よりも 0.9 dB 高い出力と 2.1 dB 低い分散ペナルティを提供します。

トランシーバーの出力は時間とともに劣化するため、安定した性能を維持するには通常 1.5 dB のマージンが必要とされています。

実際の結果は、ワーストケースのケーブルを用いた測定データよりも大幅に改善される ことが期待されます。

## 100m マルチモードファイバー (MMF)



低い分散ペナルティを提供します。

トランシーバーの出力は時間とともに劣化するため、安定した性能を維持するには通常 1.5 dB のマージンが必要とされています。

実際の結果は、ワーストケースのケーブルを用いた測定データよりも大幅に改善される ことが期待されます。



図 4a



(a) NVIDIA トランシーバー (b) チャネル接続スイッチの簡単な例 多くの場合、MPO ケーブルは実装されるトポロジーに従ってさまざまなスイッチに向かう。



可変光減衰器 (VOA)、

Rx レシーバーで構成。

トランシーバーの MPO コネクタの写真と 詳細な相互接続マップ

•

### まとめ

大規模な AI ネットワークでは数千本のファイバー ケーブルが使用されています。これは従来のデータ センターの 4 倍~ 8 倍の密度です。こうした複雑な ネットワークを管理するには、標準規格に基づいた 構造化配線を使用することで、より整理された状態 にすることができ、ファイバーの保護、余長の収納を 行う上で有益です。このホワイトペーパーでは、構 造化配線が AI ネットワークにもたらす多くのメリット と、それがレイテンシや BER に悪影響を及ぼすこと がないということを詳しく見てきました。

トランシーバーのパフォーマンスに対する光接続の影響を評価するため、MMF チャネルおよび SMF チャ ネルについて NVIDIA 光トランシーバーのヘッド ルームを仕様に基づいて計算し、BER テストを計測 する実験も行いました。 MMF チャネルに関するこの分析の結果から、評価対象の NVIDIA のトランシーバーとサードパーティのトランシーバー (このレポートには記載していませんが) は、レーザーの経年劣化や温度依存のペナルティに対して十分なヘッドルームを維持しながら、既定の性能に影響を与えることなく、MMF で 1.5dB の接続損失を許容できることが示されました。同様に、SMF チャネルでも NVIDIA トランシーバーは 2.5 dB の接続損失に耐え、経年劣化に対する十分なヘッドルーム があります。

仕様からの理論的な評価、テスト結果、サードパー ティベンダーからの補足的なデータから、当社として は、AIネットワークの設置、保守、拡張性にとって 不可欠な構造化配線は 800G NVIDIA トランシー バーを使用して効果的に実装することができると結論 付けます。この実装は、コネクタ損失を指定の範囲 内に保ち、コネクティビティのクリーニングガイドラ インに従うことが前提です。



このホワイトペーパーは、技術的スキルを持つ作業者が 自分の判断と責任においてガイドとして使用することを前 提に作成されています。パンドウイットのいかなる製品 についても、購入者には、使用前に当該製品が目的の 用途に適合することを確認する責任があります。また購 入者は、それに伴うあらゆるリスクおよび責任を負うもの とします。パンドウイットは、この文書に記載された、ま たは記載されていないいかなる情報から生じるいかなる 責任も負いません。

パンドウイットのすべての製品には、当該時点で最新の 限定製品保証の利用条件および制限事項が適用されま す。詳しくは、www.panduit.com/warranty.をご覧ください。

\*本書に記載されたすべての商標、サービスマーク、商号、 製品名、およびロゴの所有権は、それぞれの所有者に 帰属します。

参考文献 [1] https://docs.NVIDIA.com/networking/display/ 800gmma4z00ns [2] IEEE 802.3df: https://standards.ieee.org/ ieee/802.3df/11107/

当社には、お客様の インフラストラクチャ投資の 効果を最大化するための 知識と経験があります。

panduit.co.jp



ぜひご相談ください jpn-toiawase@panduit.com



