Première carte réseau Ultra Ethernet pour l'IA et le HPC

AMD présente la première carte réseau Ultra Ethernet du secteur en IA et HPC.

L'Ultra Ethernet Consortium (UEC) a retardé la sortie de la version 1.0 de la spécification du troisième trimestre 2024 au premier trimestre 2025, mais il semble que AMD est prêt à annoncer une véritable carte d'interface réseau pour les centres de données IA prête à être déployée dans les centres de données Ultra Ethernet. La nouvelle unité est l'AMD Pensando Pollara 400, qui promet des performances jusqu'à six fois supérieures pour les charges de travail d'IA.

L'AMD Pensando Pollara 400 est une carte Ultra Ethernet 400GbE basée sur un processeur conçu par l'unité Pensando de la société. Le processeur réseau comprend un pipeline matériel programmable, un transport RDMA programmable, un contrôle de congestion programmable et une accélération de la bibliothèque de communications. La NIC sera testée au quatrième trimestre et sera disponible commercialement au premier semestre 2025, juste après le Consortium Ethernet ultra-rapide publier officiellement la spécification UEC 1.0.

La carte réseau AMD Pensando Pollara 400 AI est conçue pour optimiser Réseaux IA et HPC grâce à plusieurs fonctionnalités avancées. L'une de ses fonctionnalités clés est le multipathing intelligent, qui distribue dynamiquement les paquets de données sur des chemins optimaux, évitant ainsi la congestion du réseau. rouge et améliorer l’efficacité globale. La carte réseau comprend également contrôle Surveillance de la congestion basée sur les itinéraires, qui redirige les données des itinéraires temporairement encombrés pour garantir un flux continu de données à haut débit.

Pollara 400 (Crédit image : AMD)

Pollara 400 est un innovant solution qui offre un basculement rapide, ce qui signifie qu'il peut détecter et prévenir les pannes de réseau très rapidement et efficacement. Cela garantit que la communication entre les unités de traitement graphique (GPU) reste ininterrompue, ce qui est crucial pour les applications nécessitant une haute performance. performance et une disponibilité continue. En garantissant une communication transparente entre GPU, le Pollara 400 offre des performances robustes, tout en optimisant l'utilisation des clusters d'intelligence artificielle (IA) et en minimisant la latence qui pourrait avoir un impact négatif sur le traitement des données.

Ces fonctionnalités avancées de Pollara 400 sont particulièrement prometteuses car elles ont le potentiel d’améliorer considérablement l’évolutivité et la fiabilité de l’infrastructure d’IA. Cela rend la solution idéale pour les déploiements à grande échelle, où l'efficacité et la continuité de service sont de la plus haute importance.

En parallèle, la croissance du Consortium Ultra Ethernet reflète l'intérêt et l'expansion pour le développement de technologies mise en réseau avancée. Avec 97 membres, soit une augmentation significative par rapport aux 55 de mars 2024, le consortium travaille sur la spécification UEC 1.0. Cette spécification vise à étendre le technologie Ethernet, omniprésent en termes de performances et de fonctionnalités, pour répondre aux exigences des charges de travail d'intelligence artificielle (IA) et de calcul haute performance (HPC).

La nueva especificación UEC 1.0 se beneficiará de la reutilización de la mayor cantidad posible de tecnología Ethernet original. Esto no solo asegura la rentabilidad del desarrollo y la implementación de nuevas technologies, mais garantit également l'interopérabilité avec les infrastructures existantes, ce qui est crucial pour une adoption fluide sur le marché.

De plus, la spécification UEC 1.0 inclura des profils différenciés pour l'IA et le HPC. Bien que ces types de charges de travail partagent plusieurs similitudes, ils présentent également des différences significatives dans leurs besoins et leurs caractéristiques. Par conséquent, pour maximiser l’efficacité de chacun, des protocoles distincts seront développés pour répondre spécifiquement aux exigences uniques de l’IA et du HPC. Cela permettra aux organisations de tirer le meilleur parti de leurs infrastructures technologiques, en optimisant les performances et en garantissant que les solutions conviennent à un large éventail d’applications et des scénarios.