Pour entraîner les IA génératives comportant des centaines ou milliers de millards de paramètres, à l’instar de PaLM 2 ou du futur GPU, il faut des ressources matérielles aux épaules larges et multiples. A l’occasion de Google Cloud Next, l’hyperscaler muscle le hardware et lance sa cinquième génération d’accélérateurs TPU ainsi que ne nouvelles instances A3 dotés de multiples GPU NVidia H100.

En mai dernier, la conférence Google I/O 2023 avait été totalement phagocytée par l’IA et la course aux IA génératives. La conférence Google Cloud Next 2023 – qui se tient cette semaine – s’inscrit dans la même mouvance avec des IA génératives à tous les étages, dans toutes les applications et dans les tous les services.

Google démontre ainsi à la fois sa capacité à rattraper son retard tout comme sa capacité à exécuter ses plans rapidement et dans plusieurs dimensions à la fois. Au point d’annoncer la « disponibilité générale » de son IA « Duet AI for Workspace » alors que Microsoft est toujours en preview fermée de son Microsoft 365 Copilot.

Il n’est même plus certain que Google ait le moindre train de retard sur Microsoft ou même OpenAI. Et la profusion des annonces de ce Google Next montre que l’éditeur a même su reprendre de l’avance sur ses principaux concurrents.

L’IA générative envahit littéralement tous les services de Google, du moteur de recherche à Bard, des applications collaboratives (Duet AI for Workspace) aux services data cloud d’entreprises (Duet AI for BigQuery, Duet AI for Looker, Model Garden pour Vertex AI, etc.).

Et l’IA est aussi la principale source d’innovation du côté du IaaS et des infrastructures matérielles de Google Cloud. À l’occasion de Google Cloud Next’23, l’hyperscaler a confirmé de nouvelles instances A3 conçues pour les Workloads IA et de nouvelles puces accélératrices maison, les TPU v5e !

Des VM boostées aux GPU NVidia

C’est l’une des grandes nouveautés de la plateforme GCP à l’occasion de ce Google Cloud Next 2023 : l’arrivée des instances A3 !

En mars dernier, Google avait annoncé ses instances G2, toutes premières instances animées par les nouveaux GPU « L4 Tensor Core » de NVidia avec en ligne de mire les workloads IA les plus exigeants. On pouvait alors se demander ce qu’il adviendrait des instances à base d’autres GPU NVidia et même des instances à base des processeurs Cloud TPU maison. Ce Google Cloud Next 2023 a éclairci les points et démontré que Google Cloud préfère proposer plus de choix plutôt que d’enfermer les clients dans des technologies spécifiques.

Google Cloud annonce la disponibilité en septembre de ses nouvelles VMs « A3 » animés par les déjà célèbres GPU « H100 » de NVidia et dotés du « Transformer Engine » capable de manier les modèles d’IA générative dotés de milliers de milliards de paramètres. Chaque instance VM « A3 » dispose de 2 processeurs Intel Xeon Scalable de dernière génération et de 8 GPU H100 avec 2 TO de mémoire hôte.

Selon Google Cloud, ces instances « A3 » sont calibrées pour l’entraînement des LLMs et pour les travaux d’IA les plus consommateurs de puissance. Preuve en est, Midjourney est déjà client de ces instances. Elles sont conçues pour permettre à des modèles de s’étendre sur des dizaines de milliers de GPU H100. Elles s’annoncent aussi 3 fois plus rapides en apprentissage et proposent 10 fois plus de bande passante que la génération précédente.

Une cinquième génération de Cloud TPU

Google développe depuis plusieurs années des accélérateurs spécialisés, pensés pour accélérer les modèles TensorFlow et connus sous le nom de Cloud TPU.

À l’occasion de Google Cloud Next, Google a annoncé la sortie de sa cinquième génération de TPU. Les « Cloud TPU v5e » intègrent le support des frameworks TensorFlow mais aussi JAX et Pytorch ainsi que le support d’outils comme « Transformers & Accelerate » de Hugging Face ou Lightning and Ray de Pytorch.

Donnés comme 2 fois plus rapide en apprentissage et 2,5 fois plus rapide en inférence que les TPU v4, les « v5e » disposent d’une technologie « multislice » qui permet d’étendre les modèles IA au-delà des limites physiques d’un seul pod TPU ou d’un seul cluster TPU. Jusqu’ici, l’apprentissage d’une IA devait se contenter d’un pod ou d’un cluster TPU donc à 3 072 puces TPU v4. Avec Multislice, les développeurs peuvent faire évoluer les charges de travail jusqu’à des dizaines de milliers de puces via l’interconnexion inter-puces (ICI) au sein d’un seul pod, ou à travers plusieurs pods sur un réseau de centre de données (DCN).

C’est cette technologie Multislice qui a permis à Google d’entraîner ses modèles PaLM 2 et Imagen.

 

 

À lire également :

Google Cloud Next’23 : Google multiplie et gonfle les modèles d’IA générative de Vertex AI

Google Next’23 : Google lance BigQuery Studio

Google Next’23 : Duet AI for Google Workspace est disponible

ChatGPT se décline en version Entreprise

Microsoft Inspire 2023 : de l’IA mais pas que…