AMD stellt die branchenweit erste Ultra-Ethernet-fähige Netzwerkkarte für AI und HPC vor.
Das Ultra Ethernet Consortium (UEC) hat die Veröffentlichung der Version 1.0 der Spezifikation von Q3 2024 auf Q1 2025 verschoben, aber es scheint so AMD ist bereit zur Ankündigung eine echte Netzwerkschnittstellenkarte für KI-Rechenzentren, die für den Einsatz in Ultra-Ethernet-Rechenzentren bereit ist. Bei der neuen Einheit handelt es sich um den AMD Pensando Pollara 400, der eine bis zu sechsfache Leistungssteigerung für KI-Workloads verspricht.
Die AMD Pensando Pollara 400 ist eine 400-GbE-Ultra-Ethernet-Karte, die auf einem Prozessor basiert, der von der Pensando-Einheit des Unternehmens entwickelt wurde. Der Netzwerkprozessor verfügt über eine programmierbare Hardware-Pipeline, einen programmierbaren RDMA-Transport, eine programmierbare Überlastungskontrolle und eine Beschleunigung der Kommunikationsbibliothek. Die NIC wird im vierten Quartal getestet und im ersten Halbjahr 2025 kommerziell verfügbar sein, kurz nachdem das Ultra Ethernet Consortium die UEC 1.0-Spezifikation offiziell veröffentlicht hat.
Die AMD Pensando Pollara 400 AI NIC wurde entwickelt, um KI- und HPC-Netzwerke durch mehrere erweiterte Funktionen zu optimieren. Eines seiner Hauptmerkmale ist intelligentes Multipathing, das Datenpakete dynamisch über optimale Pfade verteilt, wodurch Netzwerküberlastungen vermieden und die Gesamteffizienz verbessert werden. Die NIC umfasst außerdem eine pfadbasierte Überlastungskontrolle, die Daten von vorübergehend überlasteten Pfaden umleitet, um einen kontinuierlichen Hochgeschwindigkeitsdatenfluss sicherzustellen.
(Bildnachweis: AMD)Pollara 400 ist eine innovative Lösung, die einen schnellen Failover bietet, was bedeutet, dass sie Netzwerkausfälle sehr schnell und effektiv erkennen und verhindern kann. Dadurch wird sichergestellt, dass die Kommunikation zwischen den Grafikprozessoren (GPUs) unterbrechungsfrei bleibt, was für Anwendungen, die eine hohe Leistung und kontinuierliche Verfügbarkeit erfordern, von entscheidender Bedeutung ist. Durch die Gewährleistung einer nahtlosen GPU-zu-GPU-Kommunikation bietet Pollara 400 eine robuste Leistung, optimiert gleichzeitig die Nutzung von Clustern künstlicher Intelligenz (KI) und minimiert Latenzzeiten, die sich negativ auf die Datenverarbeitung auswirken könnten.
Diese erweiterten Funktionen des Pollara 400 sind besonders vielversprechend, da sie das Potenzial haben, die Skalierbarkeit und Zuverlässigkeit der KI-Infrastruktur deutlich zu verbessern. Dies macht die Lösung ideal für groß angelegte Bereitstellungen, bei denen Effizienz und Servicekontinuität von größter Bedeutung sind.
Parallel dazu spiegelt das Wachstum des Ultra Ethernet Consortium das Interesse und die Expansion an der Entwicklung fortschrittlicher Netzwerktechnologien wider. Mit 97 Mitgliedern, einem deutlichen Anstieg gegenüber 55 im März 2024, arbeitet das Konsortium an der UEC 1.0-Spezifikation. Diese Spezifikation zielt darauf ab, die allgegenwärtige Ethernet-Technologie in Bezug auf Leistung und Funktionen zu skalieren, um den Anforderungen von Arbeitslasten mit künstlicher Intelligenz (KI) und Hochleistungsrechnen (HPC) gerecht zu werden.
Die neue UEC 1.0-Spezifikation wird davon profitieren, dass so viel wie möglich von der ursprünglichen Ethernet-Technologie wiederverwendet wird. Dies gewährleistet nicht nur eine kosteneffiziente Entwicklung und Bereitstellung neuer Technologien, sondern gewährleistet auch die Interoperabilität mit bestehenden Infrastrukturen, was für eine reibungslose Markteinführung von entscheidender Bedeutung ist.
Darüber hinaus wird die UEC 1.0-Spezifikation differenzierte Profile für KI und HPC enthalten. Obwohl diese Arten von Arbeitsbelastungen einige Gemeinsamkeiten aufweisen, weisen sie auch erhebliche Unterschiede in ihren Anforderungen und Merkmalen auf. Um die Effizienz jedes einzelnen Protokolls zu maximieren, werden daher separate Protokolle entwickelt, die speziell auf die besonderen Anforderungen von KI und HPC zugeschnitten sind. Dies wird es Unternehmen ermöglichen, das Beste aus ihren Technologieinfrastrukturen herauszuholen, die Leistung zu optimieren und sicherzustellen, dass Lösungen für eine Vielzahl von Anwendungen und Szenarien geeignet sind.