Réduction des coûts, protection des données et diversification : les données synthétiques s’imposent comme une solution stratégique pour l’entraînement des modèles d’IA. Pourtant, leur utilisation intensive pose un dilemme critique, entre dépendance et risque de dégradation des performances des modèles IA.
Les totaux se chiffrent en milliards. Des milliards de mots, pour autant de données utilisées à l’entraînement de ChatGPT-3, modèle d’IA générative d’Open AI. Si les nombres exacts ne sont pas communiqués par les entreprises, l’essor fulgurant de l’IA générative aura mis en lumière un enjeu crucial : la qualité et la quantité des données d’entraînement.
Face à la demande croissante de modèles toujours plus performants, les données synthétiques se présentent comme une solution alléchante. Tant et si bien que Gartner estimait en 2022 que les données synthétiques pourraient représenter jusqu’à 60% des données utilisées pour l’entraînement des modèles d’IA.
Un potentiel qui devrait se répercuter sur le dynamisme économique du secteur. Les les chercheurs prévoient ainsi une augmentation de 35% du marché mondial de la génération de données synthétiques d’ici 2030 !
Le mirage de la quantité “infinie”
Les données synthétiques permettent de garantir une diversification des données ainsi que leur confidentialité, tout en réduisant les coûts de collecte et en contournant les problématiques liées à la propriété intellectuelle. En somme, elles peuvent pallier la rareté de données réelles, notamment dans des domaines spécifiques ou lorsque la collecte de données est coûteuse ou complexe. La génération de données artificielles semble donc offrir une solution simple pour constituer des bases de données de taille quasi infinie.
Pourtant, la quantité ne fait pas tout. Comme le souligne l’expression couramment utilisée en informatique, « garbage in, garbage out« . Un modèle d’IA entraîné sur des données synthétiques de mauvaise qualité produira inévitablement des résultats médiocres, voire erronés.
L’enjeu réside donc moins dans la quantité de données que dans leur qualité. Les acteurs de l’IA l’ont bien compris. Prenons OpenAI par exemple. L’entreprise a annoncé ces derniers mois un ensemble de partenariats avec des organes de presse : Le Monde, Financial Times, Wall Street Journal… L’objectif est double : d’abord calmer les accusations de violation de droits d’auteurs auxquelles OpenAI fait face et ensuite fiabiliser leurs LLMs en les entraînant sur des contenus de qualité pour enrichir la base de données d’entraînement de ces modèles, et ce, en quantité !
La donnée synthétique : la réponse à des carences
C’est pour éviter ce que les chercheurs appellent le “model collapse” que les acteurs de l’IA cherchent à diversifier les données synthétiques utilisées pour entraîner les LLMS.
Et pour cause : les modèles entraînés continuellement avec des données synthétiques apprennent sur la base de données de moins en moins fidèles aux données réelles.
Il y a plusieurs types de données synthétiques utilisables pour l’entraînement des LLMs. Qu’elles soient partiellement synthétiques – remplaçant une partie d’un jeu de données réel par des informations synthétiques – ou totalement synthétiques, les données générées par les intelligences artificielles génératives répondent à la carence inévitable des données réelles.
Le secteur de la santé profite directement de l’application des données synthétiques. Et pour cause, elles présentent une solution à plusieurs obstacles dans la recherche médicale. Sur la base d’un échantillon représentatif de données, l’IA génère des données synthétiques pour se former. Cela répond à la fois à la nécessité éthique de réduction de biais, mais également sur la question du coût de la recherche médicale, pouvant atteindre le million d’euros journalier.
L’utilisation de données synthétiques est aussi une solution aux partages de données confidentielles : avec les données synthétiques, les modèles sont entraînés sur des données de patients « fictifs », mais reproduisant les propriétés statistiques des vrais patients.
Abeba Birhane, scientifique membre de la Mozilla Foundation, considère que la dépendance excessive aux les données est comme “le talon d’Achille qui fera tomber l’industrie de l’IA générative”. Ce scénario reprend la notion du “model collapse” ou la chute des modèles d’IA génératives surentrainés aux données synthétiques.
Mais utilisée à bon escient, avec une diversification des données synthétiques ou partielles, la technologie répond à plusieurs enjeux actuels. Les acteurs de la tech et de l’IA déjà engagés dans cette course à la technologie s’appuient de plus en plus sur les données synthétiques pour développer les capacités de leurs modèles phares plus rapidement.
____________________________
Par Sahbi Chaieb – Data Scientist chez SAS