Arista Networks introduceert geavanceerde mogelijkheden om de performance en efficiëntie van AI-clusters te maximaliseren. Cluster Load Balancing (CLB) in Arista EOS maximaliseert de performance van AI-workloads met consistente lage latency network flows, terwijl Arista CloudVision Universal Network Observability (CV UNO) nu AI-taakgerichte observatie biedt voor betere oplossing en snelle inferentie van problemen. Dat zorgt voor betrouwbaarheid bij het op grote schaal verwerken van AI-taken.
Slimme AI-netwerken mogelijk maken
De Arista EOS Smart AI Suite is ontworpen voor robuustheid en bescherming van de AI-kwaliteit. Het geeft AI-clusters een innovatie genaamd Cluster Load Balancing: een nieuwe op Ethernet gebaseerde oplossing voor AI-load balancing, op basis van ‘RDMA queue pairs’, die een hoog bandbreedtegebruik tussen spines en leaves mogelijk maakt.
AI-clusters hebben meestal kleine hoeveelheden flows met grote bandbreedte. Basismethoden voor load balancing zijn vaak inefficiënt voor AI-workloads, wat resulteert in een ongelijke verkeersverdeling en verhoogde tail-latency. CLB pakt dit aan door RDMA-bewuste flow placement te gebruiken, om uniforme hoge prestaties voor alle flows te garanderen en tegelijkertijd de tail-latency te reduceren. CLB hanteert een globale aanpak en optimaliseert de verkeersstroom in beide richtingen, leaf-to-spine en spine-to-leaf, wat zorgt voor een evenwichtig gebruik van resources en een consistente lage latentie.
“Nu Oracle zijn AI-infrastructuur blijft uitbreiden met behulp van Arista-switches, zien we een behoefte aan geavanceerde load balancing-technieken om flowconflicten te voorkomen en de doorvoer in ML-netwerken te verhogen”, aldus Jag Brar, vice president en Distinguished Engineer, Oracle Cloud Infrastructure. “De Cluster Load Balancing-functionaliteit van Arista helpt daarbij.”
Holistische AI-observatie
CV UNO, het AI-gestuurde 3600 Network Observability-platform aangestuurd door Arista AVA, levert end-to-end AI-job visibility door netwerk‑, systeem- en AI-taakdata te verenigen binnen het Arista Network Data Lake (NetDL). EOS NetDL Streamer, een realtime framework voor telemetrie, streamt continu gedetailleerde netwerkdata van Arista-switches naar NetDL. In tegenstelling tot traditionele SNMP-polling, die afhankelijk is van periodieke query’s en kritieke updates kan missen, biedt EOS NetDL Streamer lage latentie, hoge frequentie, eventgestuurde inzichten in netwerkprestaties, wat cruciaal is voor het optimaliseren van AI-training en inferentie-infrastructuur.
Ontworpen voor AI-acceleratorclusters, versnelt het de impactanalyse, lokaliseert het problemen nauwkeurig en zorgt het voor een snelle oplossing, waardoor de tijden om taken te voltooien tot een minimum worden beperkt. Enkele van de belangrijkste voordelen zijn:
- AI Job Monitoring – Geeft een uitgebreid overzicht van belangrijke AI-job statistieken, inclusief job voltooiingstijden, congestie-indicatoren (ECN-gemarkeerde packets, PFC-pauzeframes, packetdrops) en buffer-/linkgebruik voor realtime-inzichten.
- Deep-Dive Analytics – Ontdekt kritieke taakspecifieke inzichten door netwerkapparaten, server-NIC’s (bijv. PFC-out-of-sync-gebeurtenissen, RDMA-fouten, PCIe-fatale fouten) en bijbehorende flows te analyseren, en geeft performanceknelpunten nauwkeurig aan.
- Flow Visualization – Benut de kracht van CV-topologiemapping om realtime, intuïtief inzicht te krijgen in AI-job flows met microseconde-granulariteit, wat de inferentie en oplossing van problemen versnelt.
- Proactieve oplossing – Detecteert anomalieën vroegtijdig en correleert netwerk- en computerprestaties binnen NetDL, wat zorgt voor ononderbroken, zeer efficiënte uitvoering van AI-workloads.
Arista AI Centers aangestuurd door AVA
Arista’s Etherlink AI-platforms zijn op standaarden gebaseerde Ethernet-systemen met een zeer hoge performance, voor volgende generatie AI-netwerken. Etherlink biedt 800G/400G modulaire en gedistribueerde platforms, die toekomstgericht compatibel zijn met Ultra Ethernet Consortium (UEC), en is schaalbaar van kleine AI-clusters tot enorme implementaties met ruim 100.000 accelerators.
Arista beschikt over de AI Analyzer, aangestuurd door Arista AVA, die hoge-resolutie verkeersdata levert met intervallen van 100 microseconden. Hiermee kunnen netwerkbeheerders nauwkeurig de performance optimaliseren, snel problemen oplossen en weloverwogen beslissingen nemen voor AI-gestuurde netwerken. Arista AVA voedt ook een externe EOS AI Agent, die telemetrie streamt van SuperNIC’s of servers naar NetDL, wat zorgt voor naadloze netwerkbewaking, debugging en QoS-consistentie over de gehele stack.
Beschikbaarheid
- CLB
- Vanaf nu beschikbaar op de platforms 7260X3, 7280R3, 7500R3 en 7800R3.
- Ondersteuning op de platforms 7060X6 en 7060X5 staat gepland voor Q2 2025
- Ondersteuning voor 7800R4 staat gepland voor 2H 2025
- CV UNO is vanaf nu beschikbaar. De observatieverbeteringen voor AI worden nog door klanten getest, waarna de brede beschikbaarheid gepland staat voor Q2 2025
Lees hier meer over de ondersteuning in de markt voor deze introductie.
Registreer u hier voor een webinar op 10 april 2025 om meer te weten te komen over de EOS Smart AI-suite en lees de blog van Praful Bhaidasna, directeur Product Management bij Arista.
0 reacties