L’intégration de l’IA dans les infrastructures réseau modernes permet non seulement d’optimiser les opérations de réseau (AIOps), mais aussi de gérer efficacement les charges de travail liées à l’IA dans les datacenters. En exploitant des plateformes de mise en réseau AI-Native, les entreprises bénéficient d’une flexibilité accrue, d’une automatisation poussée et d’une performance fiable à grande échelle.
Les environnements informatiques et applicatifs modernes conduisent à opérer des infrastructures de réseau de plus en plus complexes. En utilisant l’intelligence artificielle (IA), les organisations peuvent considérablement simplifier et optimiser les opérations de réseau. L’utilisation d’une plateforme de mise en réseau reposant nativement sur l’IA (AI-Native Networking Platform) couvre deux cas d’utilisation différents. Elle peut être utilisée dans le contexte AIOps (Artificial Intelligence for IT Operations) classique sur le campus et dans les sites distants (AI for networking), mais elle peut également servir de base efficace pour la gestion des charges de travail liées à l’IA et à l’apprentissage automatique (ML) dans le datacenter (networking for AI).
Les réseaux reposant nativement sur l’IA ont été conçus en intégrant l’IA comme un composant essentiel. En d’autres termes, contrairement aux systèmes où l’IA est ajoutée comme un élément distinct à un stade ultérieur, un réseau AI-Native est conçu pour tirer parti de l’intelligence artificielle et de l’apprentissage automatique dès le départ. Qu’une organisation utilise l’IA pour le réseau ou construise un réseau optimal pour l’IA, une plateforme de mise en réseau AI-Native offre la flexibilité, l’automatisation et l’assurance nécessaires pour simplifier les opérations, augmenter la productivité et fournir des performances fiables quelle que soit l’échelle. Afin de garantir des expériences exceptionnelles de bout en bout pour l’opérateur et l’utilisateur final, les réseaux reposant nativement sur l’IA doivent être conçus spécifiquement pour tirer parti des AIOps. Pour garantir que chaque connexion est fiable, mesurable et sécurisée pour chaque appareil, chaque utilisateur, chaque application et chaque actif, il est impératif de s’assurer d’analyser les données pertinentes et l’infrastructure adéquate et que la bonne réponse est obtenue en temps réel.
L’IA optimise les opérations du réseau
Les réseaux reposant nativement sur l’IA constituent la base idéale pour la mise en œuvre des concepts AIOps. Ce terme décrit les plateformes technologiques et les processus qui aident les équipes informatiques à prendre plus rapidement de meilleures décisions et à réagir rapidement face aux incidents du réseau et du système. Avec l’approche AIOps, les entreprises reçoivent des informations contextuelles issues de grandes quantités de données de télémétrie et de logs d’événements pour l’ensemble de l’infrastructure informatique, et ce, en temps réel ou quasi réel. Il en résulte plusieurs avantages : une meilleure expérience pour l’opérateur informatique, la simplification et la réduction des coûts d’exploitation du réseau et l’amélioration de l’expérience de l’utilisateur final. Les performances du réseau sont surveillées et analysées en permanence, et des ajustements sont effectués automatiquement pour optimiser la vitesse, la fiabilité et l’efficacité. En prédisant les défaillances et les goulets d’étranglement du réseau avant qu’ils ne se produisent, les AIOps sont capables de prendre des mesures de maintenance préventive pour réduire les temps d’arrêt.
Lors de la sélection d’une solution d’opérations réseau pilotée par l’IA, il est important de s’assurer qu’elle recueille et utilise toutes les données issues des technologies filaires et sans fil, et des SD-WAN (Software-Defined WANs) issues de l’ensemble de l’environnement de l’entreprise, incluant les datacenters, les bureaux à domicile et tous les réseaux de campus, de sites distants et d’environnements cloud. Cela permet une visibilité et une transparence de bout en bout sur l’ensemble du réseau. Dans l’idéal, les équipes chargées des opérations réseau reçoivent également l’aide d’un assistant réseau virtuel doté d’une interface utilisateur conversationnelle. Il permet de poser des questions et d’obtenir des réponses en langage naturel, ce qui facilite et accélère la compréhension du réseau et en accélère le dépannage.
Le réseau optimise l’utilisation de l’IA
Cependant, l’utilisation de réseaux reposant nativement sur l’IA comme base pour connecter les utilisateurs n’est que l’un des côtés de la médaille. L’autre aspect important de l’IA réside dans la manière dont l’architecture des réseaux des datacenters est conçue pour répondre aux nouvelles exigences massives en matière d’entraînement des modèles d’IA et de traitement d’autres charges de travail d’IA. Les récentes avancées dans le domaine de l’IA générative ont placé l’IA et l’apprentissage automatique au centre des préoccupations de la plupart des entreprises. Les datacenters sont au cœur de l’IA et les réseaux jouent un rôle essentiel en connectant des serveurs GPU coûteux et en maximisant leur utilisation.
Les technologies et conceptions traditionnelles des datacenters peinent à répondre aux exigences de performance, de capacité et de latence que les charges de travail de l’IA font peser sur l’infrastructure. Les clusters modernes d’IA et de ML peuvent être constitués de centaines, voire de milliers de GPU. Ils sont nécessaires pour fournir la puissance massive de calcul parallèle requise pour entraîner les modèles d’IA modernes. Plus précisément, la montée en flèche de la demande de GPUs puissants — combinée à des prix élevés — et la dépendance à l’égard de l’InfiniBand propriétaire posent des problèmes aux entreprises.
Il est donc important pour les entreprises de chercher des moyens de réduire les coûts. Si les serveurs GPU sont généralement le principal facteur direct des coûts globaux des datacenters d’IA, la mise en réseau des datacenters d’IA est également cruciale. C’est là qu’interviennent les plateformes AI-Native Networking, qui fournissent une solide fondation pour obtenir des temps de traitement rapides et permettre une utilisation optimale des GPU. Elles prennent en charge la répartition des charges de travail entre les GPU et la synchronisation ultérieure pour former le modèle d’IA, en accélérant le temps de réalisation des tâches (JCT) et en réduisant le temps passé à attendre que le dernier GPU termine les calculs, ce que l’on appelle la latence de traîne (tail latency).
Un tel réseau conçu pour l’IA doit toutefois répondre à certains critères et présenter des caractéristiques de performance importantes. En termes de technologie de réseau, Ethernet est susceptible de devenir de plus en plus important en tant qu’alternative ouverte et éprouvée à InfiniBand, une technologie propriétaire et coûteuse. Avec l’évolution vers le 800 GbE et le bridging des datacenters (DCB), Ethernet offre une grande capacité, une faible latence pour optimiser le temps d’exécution des tâches, une meilleure gestion de la congestion et offre une transmission de données sans perte. Les topologies de réseau de type fabric Ethernet sont donc des solutions idéales pour le trafic des données critiques de l’IA.
Un autre composant important consiste à bénéficier d’une topologie réseau de type Clos proposant une vitesse de réseau constante pour l’optimisation du framework d’apprentissage. D’autres types de conception augmentent également la fiabilité et l’efficacité de l’ensemble de la structure. Il s’agit notamment d’interconnexions de fabric de taille appropriée avec un nombre optimal de liens et la capacité de détecter et de corriger les déséquilibres dans le flux de données afin d’éviter la surcharge et la perte de paquets. La notification de congestion explicite (ECN) avec la notification de congestion quantifiée du datacenter (DCQCN) et le contrôle du flux de données basé sur les priorités garantissent une transmission sans perte.
Enfin, l’automatisation est un élément important d’une solution efficace de réseau de datacenters d’IA. Elle doit être utilisée en permanence dans la conception, le déploiement et la gestion, en automatisant et en validant le cycle de vie du réseau du jour 0 au jour 2 et au-delà. Cela permet de mettre en œuvre des conceptions et des déploiements de datacenter d’IA reproductibles et validés en continu qui, non seulement éliminent l’erreur humaine, mais exploitent également la télémétrie et les flux de données pour optimiser les performances, faciliter le dépannage proactif et prévenir les pannes.
Avec un réseau natif IA comme fondation, les organisations peuvent donc prendre en charge le nombre sans cesse croissant d’appareils, d’utilisateurs et d’applications connectés, tant au sein du réseau que dans le datacenter, avec une équipe informatique et un temps limités. Les organisations doivent également s’assurer que le réseau peut évoluer pour prendre en charge les charges de travail liées à l’IA dans le datacenter. Ce faisant, elles préparent également le réseau du futur. Nous avons atteint un point d’inflexion avec l’IA : il s’agit d’un changement plus important encore qu’Internet et un changement à cette échelle oblige de repenser l’approche de la mise en réseau.
____________________________
Par Benoit Mangin, Lead Sales Specialist chez Juniper Networks