Dalla scala/da scala a scala: Spectrum-XGS è la scelta inevitabile

Gli attuali data center AI si trovano ad affrontare due principali colli di bottiglia nella scalabilità e i tradizionali modelli di scalabilità verticale e orizzontale fanno fatica a soddisfare le richieste di AI su scala gigantesca:

Limitazioni-di aumento: Ottenuto aggiornando singoli sistemi o rack (ad esempio, aumentando il numero di GPU o migliorando le prestazioni di un singolo-dispositivo), ma vincolato dai limiti di potenza dell'infrastruttura come il raffreddamento ad acqua. I data center esistenti hanno soglie fisiche per l'assorbimento di potenza e la dissipazione del calore, impedendo aumenti infiniti della densità di elaborazione per rack o data center.

Limitazioni-di scalabilità orizzontale: ampliato aggiungendo rack e server per scalare i cluster, ma limitato dallo spazio fisico in una singola sede, imponendo limiti rigidi alla capacità delle apparecchiature.

Per superare questo dilemma, NVIDIA propone la nuova dimensione di "scale-across", ottimizzando la comunicazione di rete tra data center geograficamente dispersi per far collaborare i cluster AI distribuiti come uno solo. Il fondatore e CEO di NVIDIA Jensen Huang descrive questa super fabbrica di intelligenza artificiale interregionale come un'infrastruttura chiave per la rivoluzione industriale dell'intelligenza artificiale, con Spectrum-XGS come abilitatore tecnologico principale.

Spectrum-XGS

Tecnologie principali dello spettro-XGS

Spectrum-XGS non è una piattaforma hardware completamente nuova, ma un'evoluzione dell'ecosistema Spectrum-X Ethernet esistente di NVIDIA. Dal suo lancio nel 2024, Spectrum-X ha fornito prestazioni di rete IA generativa 1,6 volte superiori rispetto alla rete Ethernet tradizionale tramite gli switch SN5600 dell'architettura Spectrum-4 e le DPU BlueField-3, diventando la scelta principale per i data center IA che utilizzano GPU NVIDIA. La svolta in Spectrum-XGS risiede in tre innovazioni algoritmiche e sinergie hardware che affrontano le sfide di latenza di comunicazione, congestione e sincronizzazione nei cluster GPU interregionali.

1.Algoritmi principali: adattamento dinamico alle caratteristiche della rete-a lunga distanza

Il nucleo di Spectrum-XGS è un insieme di "algoritmi di ottimizzazione della rete in grado di riconoscere la distanza" che analizzano i parametri chiave della comunicazione tra i-data{3}}centri in tempo reale-(distanza, modelli di traffico, livelli di congestione, parametri di prestazione) e regolano dinamicamente le policy di rete:

Controllo adattivo della congestione-a distanza:A differenza del tradizionale trattamento uniforme di tutte le connessioni da parte dell'Ethernet tradizionale, gli algoritmi Spectrum-XGS regolano automaticamente le soglie di congestione in base alle distanze effettive tra i data center (che attualmente supportano implementazioni fino a centinaia di chilometri), evitando la perdita o l'accumulo di pacchetti nelle trasmissioni a lunga-distanza.

Gestione precisa della latenza:Attraverso il routing adattivo granulare per-pacchetto-, elimina il jitter di latenza dalle ritrasmissioni di pacchetti nelle reti tradizionali. Il jitter è un rischio critico nei cluster AI: se una singola GPU rallenta a causa del ritardo, tutte le GPU che collaborano devono attendere, con un impatto diretto sulle prestazioni complessive.

Fine-a-Fine telemetria: la raccolta-in tempo reale dei dati sulle prestazioni-del collegamento completo dalle GPU agli switch e ai collegamenti tra-data-center fornisce feedback a livello di millisecondi-per le regolazioni algoritmiche, garantendo la corrispondenza dinamica dello stato della rete alle richieste del carico di lavoro AI.

2. Sinergie hardware: sfruttare la larghezza di banda elevata-dell'ecosistema X

Spectrum-XGS raggiunge prestazioni ottimali se combinato con hardware NVIDIA specifico:

Interruttori dello spettro-X: come dorsale di rete sottostante, che fornisce un'elevata densità di porte e un inoltro a bassa-latenza.

ConnectX-8 SuperNIC: adattatore di rete dedicato AI da 800 Gb/s-per il trasferimento dati ad alta-velocità tra GPU e switch.

Hardware per l'architettura Blackwell: come le GPU B200 e i superchip GB10, profondamente integrati con Spectrum-XGS per ridurre la latenza end-to-end. NVIDIA convalidato tramite benchmark NCCL (libreria di comunicazione collettiva): Spectrum-XGS aumenta le prestazioni di comunicazione tra GPU di cross-data-center di 1,9 volte controllando la latenza end-to{11}}end a circa 200 millisecondi-un livello che risulta reattivo e privo di ritardi-per le interazioni degli utenti, soddisfacendo-i requisiti in tempo reale per l'inferenza dell'AI.

Ottimizzazione-stack completo per l'addestramento dell'AI e l'efficienza dell'inferenza con Spectrum-XGS

Spectrum-XGS non è una tecnologia isolata ma un'aggiunta fondamentale all'ecosistema AI completo-stack di NVIDIA. In questa versione, NVIDIA ha anche rivelato miglioramenti delle prestazioni a livello di software-che sinergizzano con Spectrum-XGS per la collaborazione hardware-algoritmo-software:

Aggiornamento del software Dynamo: ottimizzato per l'architettura Blackwell (ad esempio, sistemi B200) per aumentare le prestazioni di inferenza del modello AI fino a 4 volte, riducendo significativamente il consumo di elaborazione per l'inferenza di modelli di grandi dimensioni.

Tecnologia di decodifica speculativa: utilizza una piccola bozza di modello per prevedere in anticipo il token di output successivo del modello AI principale, riducendo il calcolo del modello principale e migliorando le prestazioni di inferenza di un ulteriore 35%. Ciò è particolarmente adatto per scenari di inferenza conversazionale in modelli linguistici di grandi dimensioni (LLM).

Dave Salvator, direttore del dipartimento di calcolo accelerato di NVIDIA, ha affermato che l'obiettivo principale di queste ottimizzazioni è quello di scalare ambiziose applicazioni di intelligenza artificiale. Che si tratti di addestrare trilioni di-modelli con parametri di grandi dimensioni o di supportare servizi di inferenza AI per milioni di utenti simultanei, la combinazione di Spectrum-XGS e l'ecosistema software offre prestazioni prevedibili.

Prime applicazioni e impatto sul settore di Spectrum-XGS

Primi utenti: CoreWeave Pioneers Cross-Domain AI Super FactoryIl fornitore di servizi cloud GPU CoreWeave è tra i primi ad adottare Spectrum-XGS. Il co-fondatore e CTO dell'azienda, Peter Salanki, ha sottolineato che questa tecnologia consentirà ai suoi clienti di accedere a capacità di intelligenza artificiale su scala gigante-, accelerando i progressi in tutti i settori. Ad esempio, supportando progetti di intelligenza artificiale su-larga-scala come l'iniziativa Stargate di Oracle, SoftBank e OpenAI.

Tendenze del settore: Ethernet sostituisce InfiniBand come rete principale di intelligenza artificialeSebbene InfiniBand detenesse circa l’80% del mercato delle reti backend AI nel 2023, il settore si sta rapidamente spostando verso Ethernet. La scelta di NVIDIA di sviluppare Spectrum-XGS su Ethernet è in linea con questa tendenza:

Compatibilità e vantaggi in termini di costi:Ethernet è lo standard universale per i data center globali, più familiare agli ingegneri di rete e più economico da implementare rispetto a InfiniBand.

Proiezioni su scala di mercato:I dati del Gruppo Dell'Oro mostrano che il mercato degli switch per data center Ethernet raggiungerà quasi 80 miliardi di dollari nei prossimi cinque anni.

La crescita di NVIDIA: 650 report del gruppo indicano NVIDIA come il "venditore in più rapida-crescita" nel mercato degli switch per data center nel 2024, con ricavi derivanti dalle attività di networking che hanno raggiunto i 5 miliardi di dollari nel trimestre2 2024 (terminato il 27 aprile), in crescita del 56% su base annua-su-anno.

Il lancio di Spectrum-XGS estende la strategia di monopolio-dell'intero stack di NVIDIA nell'infrastruttura AI, innescando al tempo stesso nuove dinamiche competitive:

Layout dello stack completo-di NVIDIA: Dalle GPU (Blackwell), alle interconnessioni (NVLink/NVLink Switch), alle reti (Spectrum-X/Spectrum-XGS, Quantum-X InfiniBand) al software (CUDA, TensorRT-LLM, microservizi NIM), NVIDIA ha ha formato un circuito chiuso che copre il "software di calcolo-connessione-" per l'infrastruttura AI. Spectrum-XGS funziona in sinergia con NVLink per tre-livelli di scalabilità: intra-rack (NVLink), intra-data-center (Spectrum-X) e cross-data-center (Spettro-XGS).

Le risposte dei concorrenti: la precedente tecnologia SUE di Broadcom condivide obiettivi simili con Spectrum-XGS, mirando a ottimizzare le prestazioni Ethernet per colmare il divario con InfiniBand. Inoltre, fornitori come Arista, Cisco e Marvell stanno accelerando gli switch Ethernet dedicati all'AI-, mentre la concorrenza si concentra sulle prestazioni-costi-compatibilità con l'ecosistema.

Il valore principale di Spectrum-XGS risiede nel portare il data center AI a scalare da "vincoli di singolo-sito" a "collaborazione inter-regionale". Man mano che l'energia e il territorio diventano limiti rigidi per i singoli data center, le super fabbriche di intelligenza artificiale tra città e paesi diventeranno la forma principale a supporto delle applicazioni AI di prossima generazione (ad esempio, intelligenza artificiale generale, cluster di agenti su larga scala).

Come ha anticipato Gilad Shainer, vicepresidente senior del dipartimento networking di NVIDIA alla conferenza Hot Chips: "Le reti fisiche in fibra ottica di cross-data{{1}center center esistono da tempo, ma gli algoritmi software come Spectrum-XGS sono la chiave per sbloccare le reali prestazioni di queste infrastrutture fisiche."

Di scala/scala in scala: Spectrum-XGS è la scelta inevitabile

Tecnologie principali dello spettro-XGS

Ottimizzazione-stack completo per l'addestramento dell'AI e l'efficienza dell'inferenza con Spectrum-XGS

Prime applicazioni e impatto sul settore di Spectrum-XGS

Industria relativa

Invia la tua richiesta