Derrière le glamour des IA génératives se cache un enjeu souvent sous-estimé, mais crucial : la gestion des données. Sans une stratégie de stockage de données robuste, même les IA les plus sophistiquées ne sont que des coquilles vides. La réalité est là, dans la plupart des entreprises, un déploiement réussi de l’IA générative impose de repenser l’infrastructure de stockage.

Non, ChatGPT n’est pas à l’origine de cette tribune. Mais il est vrai que l’IA générative a fait parler d’elle au cours des derniers mois, notamment pour son potentiel à révolutionner l’Industrie.

Les grandes entreprises de la tech refondent leurs plans opérationnels sur l’intelligence artificielle et l’engouement est phénoménal. Microsoft déclare que l’IA générative pourrait ajouter 40 milliards de dollars (36 millions d’euros) à son chiffre d’affaires. Le marché de l’IA générative serait également à même d’entraîner une augmentation du PIB mondial de près de 7 000 milliards de dollars, soit 6 412 milliards d’euros. Environ 75 % des entreprises prévoient d’adopter des technologies d’IA au cours des cinq prochaines années. ChatGPT a gagné plus de 100 millions d’utilisateurs au cours de ses deux premiers mois d’existence, devenant ainsi l’application grand public à la croissance la plus rapide de tous les temps.

Mais les meilleurs outils d’intelligence artificielle seraient inutiles sans un élément clé qui constitue le socle, le carburant même de cette technologie : les données.

Les entreprises nécessitent une immense quantité de données pour entraîner leurs outils d’IA à trouver des contenus à valeur ajoutée, et ce à partir d’informations jusque-là sous-exploitées, voire inexploitées. Parce que les outils d’IA de demain seront capables de tirer des enseignements encore insoupçonnés des données d’hier, les entreprises gagnent à conserver autant de données que possible.

Les chatbots et les générateurs intelligents d’images ou de vidéos seront également à l’origine d’une augmentation drastique de la production de données à gérer pour les entreprises, et ces résultats devront être conservés pour constituer les prochains algorithmes enrichis. D’ici 2025, Gartner prévoit que l’IA générative représentera 10 % de toutes les données produites, contre moins de 1 % aujourd’hui. On peut ainsi s’attendre à ce que les technologies d’IA générative telles que ChatGPT, DALL-E, Bard et DeepBrain AI génèrent des zettaoctets de données au cours des cinq années à venir.

Les entreprises peuvent tirer parti de ces applications d’IA seulement si leur stratégie de stockage de données permet d’élaborer des méthodes simples et rentables pour former et déployer ces outils à grande échelle. Et cette gigantesque masse de données nécessite un stockage de grande capacité. Sauvegarder ses données devient aujourd’hui une nécessité absolue pour alimenter le moteur de l’IA.

Pourquoi l’IA a besoin de se nourrir de données

Selon une étude IDC (International Data Corporation), 84 % des données d’entreprise créées en 2022 étaient utiles pour l’analyse générale, mais seulement 24 % d’entre elles ont été introduites dans des algorithmes d’IA ou de ML (Machine Learning). Cela démontre combien les entreprises ne parviennent pas à exploiter la majorité des données disponibles, entrainant une déperdition de valeur commerciale. Une problématique à l’image d’une voiture électrique : si la batterie n’est pas chargée, la voiture ne vous conduira pas à bon port. Si les données ne sont pas stockées et accessibles, même les outils d’IA les plus intelligents ne seront d’aucune utilité.

Alors que les entreprises cherchent à élaborer leur IA, le stockage de grande capacité permettra d’exploiter les données brutes et générées. Les entreprises auront besoin de mettre en place des stratégies de stockage robustes. Elles devraient alors se tourner vers le cloud pour une partie des données générées par l’IA, tout en stockant et gérant certaines données directement sur site. Les disques durs (qui représentent environ 90 % du stockage dans le cloud public) offrent une solution rentable, durable et fiable pour le stockage de grande capacité. Ils peuvent stocker les vastes quantités de données nécessaires pour alimenter les modèles d’IA en vue d’un entrainement et d’une amélioration continue.

Il est également essentiel de conserver les données brutes, même après leur traitement. Certains contenus créés par l’IA peuvent donner lieu à des litiges en matière de propriété intellectuelle. Les enquêtes sectorielles ou les litiges peuvent concerner des questions relatives à la base des connaissances de l’IA. Le fait de « démontrer son travail » à l’aide d’un archivage historique de données stockées permettra de démontrer la propriété et le bien-fondé des conclusions juridiques.

La qualité des données influe également sur la fiabilité des informations. Pour garantir leur meilleure qualité, les entreprises devraient utiliser des méthodes telles que le prétraitement, l’étiquetage, la surveillance des mesures de la qualité, et enfin la gouvernance et l’examen des données.

Comment les entreprises peuvent-elles se préparer ?

Bien entendu, les coûts liés à la conservation des données poussent parfois les entreprises à supprimer certaines d’entre elles. Mais les entreprises doivent trouver un juste équilibre entre ces coûts et la nécessité de rassembler des données nécessaires au travail de l’IA, génératrice de valeur pour l’entreprise.

Dans le cadre de cet arbitrage, les entreprises leaders se reposent généralement sur des outils de comparaison et d’estimation des coûts du cloud. Pour le stockage sur site, elles devraient envisager des systèmes de stockage optimisant le coût total de possession, construits avec des disques durs. Par ailleurs, elles doivent donner la priorité à la surveillance des données et automatiser les processus dans la mesure du possible.

Une classification complète est essentielle pour identifier les données nécessaires à l’IA. Cela signifie notamment qu’il faut s’assurer que les données sensibles, par exemple, les données personnelles identifiables ou les données financières, sont traitées conformément aux réglementations. Leur sécurité doit être solide. De nombreuses entreprises cryptent déjà leurs données pour les conserver, mais les algorithmes d’IA ne peuvent généralement pas apprendre à partir de données cryptées. Les entreprises ont alors besoin d’un processus pour décrypter en toute sécurité leurs données pour la formation des IA et les recrypter pour le stockage.

Pour tirer pleinement parti du travail de l’IA, les entreprises doivent :

1- Prendre l’habitude de stocker davantage de données, leur valeur étant désormais indiscutable. Il devient essentiel de conserver les données brutes tout comme les informations qu’elles contiennent et de ne pas limiter les données qui peuvent être stockées, mais plutôt celles qui peuvent être supprimées.

2- Mettre en place des processus qui améliorent la qualité des données.

3- Déployer des méthodes éprouvées pour minimiser les coûts des données.

4- Mettre en œuvre une classification et une conformité des données solides.

5- Assurer la sécurité des données.

Sans ces mesures, les meilleurs modèles d’IA générative ne tiendront pas leur promesse.

Même avant l’émergence de l’IA générative, les données étaient déjà la clé pour stimuler l’innovation. Les entreprises les plus habiles à gérer leur stockage multicloud ont 5,3 fois plus de chances que leurs homologues de dépasser leurs objectifs de chiffre d’affaires. L’IA générative pourrait considérablement creuser le fossé d’une entreprise à l’autre en termes d’innovation.

L’engouement autour de l’IA générative s’est à juste titre concentré sur son potentiel d’innovation. Mais les chefs d’entreprise vont bientôt se rendre compte que leurs stratégies de stockage et de gestion des données sont un facteur déterminant de la réussite de cette révolution.
____________________________

Par Philippe Vaillant, Sales Engineer, Seagate Technology

 

À lire également :

Les IA génératives : Un potentiel infini, mais à quel coût de stockage ?

L’IA générative : les entreprises européennes se préparent à l’impact

IA générative en entreprise et open source…

L’IA générative et l’urgence d’accélérer la transformation numérique…

Réduction des données : la compression et la déduplication ont un impact bien plus important qu’on ne le pense