In een tijdperk waarin kunstmatige intelligentie (AI) zijn stempel drukt op elk facet van de technologische vooruitgang, is de noodzaak voor robuustere, flexibelere en snellere netwerkinfrastructuren nog nooit zo groot geweest. Geleid door de bekende namen zoals Cisco, Arista, HPE en Intel en gesteund door de Linux Foundation, is het gloednieuwe Ultra Ethernet Consortium (UEC) gelanceerd met als doel het maximaliseren van de schaalbaarheid, stabiliteit en betrouwbaarheid van Ethernet-netwerken.
Terwijl we de 50ste verjaardag van Ethernet vieren, blijft de flexibiliteit en aanpasbaarheid de sterkste troeven. Ethernet zal ongetwijfeld een centrale rol spelen in de ondersteuning van AI-infrastructuren. Maar met de groeiende eisen van AI zijn er zorgen over de mogelijkheid van de huidige netwerkverbindingen om te voldoen aan de vereiste prestaties en
De uitdaging van AI-workloads
AI-werklasten zijn zowel gegevens- als rekenintensief. Grote taalmodellen zoals GPT‑3 en DLRM zijn zo uitgebreid dat parameters worden verdeeld over duizenden processors. Elk vertraging vanwege een slecht netwerk kan de prestaties van een AI-toepassing kritisch beïnvloeden.
In het verleden waren de opties voor het verbinden van processorcores en geheugen beperkt tot interconnecties zoals InfiniBand en PCI Express. Deze technologieën hebben echter hun beperkingen, vooral als het gaat om AI-workloadvereisten.
De oplossing van UEC
Het Ultra Ethernet Consortium stelt voor om de beperkingen van traditionele RDMA-protocollen te heroverwegen en te vervangen. In een recente whitepaper beschrijft de UEC een aantal kernfuncties van hun nieuwe Ethernet-specificatie:
- Multi-pathing en packet spraying: Hierdoor kunnen AI-werkstromen tegelijkertijd toegang hebben tot een bestemming.
- Flexibele leveringsvolgorde: Dit zorgt voor een optimale balans van Ethernet-links, waarbij de volgorde alleen wordt afgedwongen wanneer dit nodig is.
- Moderne congestiecontrolemechanismen: Deze mechanismen zorgen ervoor dat AI-werklasten hotspots vermijden en de belasting gelijkmatig over meerdere paden verdelen.
- End-to-end telemetrie: Deze telemetrie helpt bij het beheren van congestie en het identificeren van de oorzaak ervan.
Bovendien benadrukt de UEC dat hun transportontwerp vanaf het begin netwerkbeveiliging integreert, waarbij alle netwerkverkeer tussen computationele eindpunten in een AI-training of inferentiejob wordt geëncrypteerd en geverifieerd.
Met de groeiende eisen van AI en andere geavanceerde technologieën is de vorming van het Ultra Ethernet Consortium een welkome ontwikkeling. Door de krachten van grote spelers in de industrie te bundelen, belooft de UEC een robuustere en efficiëntere netwerkinfrastructuur die de volgende generatie AI-innovaties kan ondersteunen.
0 reacties