On parle beaucoup des nouvelles IA génératives, un peu moins des ressources faramineuses qu’elles nécessitent et totalement insuffisamment des volumétries de données et par voie de conséquence du stockage dont elles ont besoin, pour leur apprentissage bien sûr, mais aussi et surtout pour tous les contenus qu’elles vont générer !

A l’approche du Sommet Mondial de l’IA, et dans un contexte où les potentiels de l’IA générative captivent l’imagination dans le secteur de la technologie et au-delà, il est essentiel de ne pas perdre de vue les prérequis.

L’enjeu fondamental du stockage des données générées est sous-estimé : une nouvelle problématique à laquelle les organisations utilisatrices d’IA doivent désormais faire face. L’engouement pour ChatGPT, qui en seulement 2 mois a gagné plus de 100 millions d’utilisateurs, ou encore l’empressement des entreprises pour lancer leurs propres solutions d’IA, illustrent ce nouveau champ des possibles dont il faut maîtriser le carburant de la donnée, pour s’assurer de gagner la course.

Les données sont incontestablement devenues la monnaie de l’IA. A mesure que les entreprises développent et adaptent leurs outils IA, elles les entrainent sur leurs propres données internes. Et le succès de cet apprentissage via les datas repose sur les processus appropriés de stockage et de gestion des données. Cela inclut une classification complète des données et la possibilité de les déplacer de manière transparente et en temps réel, là où elles peuvent fournir le plus de valeur.

En parallèle, les chatbots ainsi que les générateurs d’IA d’images et de vidéos donneront lieu à plus de données que les entreprises ne pourront le gérer, au fur et à mesure qu’elles généreront du contenu.

Considérons tout d’abord que plus les modèles d’IA peuvent s’entraîner sur des données, meilleures et plus robustes sont leurs inférences. Cela souligne la nécessité de préserver toutes les données que les entreprises peuvent stocker.

Deuxièmement, Seagate prévoit que les applications d’IA génératives – chatbots et générateurs d’images et de vidéos – produiront au moins 1,1 exaoctet de données au cours des 5 prochaines années. C’est 700 000 fois la quantité de données contenues dans la Bibliothèque Nationale de France ! Seagate estime qu’environ 6,5 % (73,2 pétaoctets) des données générées seront stockées.

Si les entreprises ne préparent pas et n’adaptent pas leurs stratégies de stockage dès maintenant, au vu des besoins qui se profilent, elles dégraderont leur position de marché.

Par Philippe Vaillant, Lyve Sales Engineer chez Seagate Technology

