D’un diagnostic plus précis à une surveillance proactive des maladies, l’IA est en train de révolutionner le secteur de la santé. Mais peut-être plus qu’ailleurs, les enjeux de qualité des données, de biais et d’éthique y sont cruciaux. Les données synthétiques peuvent-elles être la clé pour surmonter ces défis et favoriser une IA fiable et éthique en milieu médical ?
L’intelligence artificielle (IA) est en passe de devenir une technologie essentielle dans le secteur de la santé. De nombreux exemples d’application de cette technologie à des problématiques de santé sont déjà apparus : les logiciels de reconnaissance de formes capables d’identifier les tumeurs, les accessoires tels que les bracelets connectés utilisés pour signaler les problèmes cardiaques, etc. Le nombre de données collectées ne cesse d’augmenter à une vitesse sans précédent. Cependant, les préoccupations au sujet de l’éthique se renforcent. Les données synthétiques s’avèrent alors indispensables pour atténuer les biais.
Une étude menée par l’Université de Heidelberg a révélé que les modèles basés sur le Machine Learning peuvent analyser des images dermoscopiques « au moins aussi bien que les dermatologues ». En effet, le diagnostic des modèles entraînés avec des images de haute qualité était presque aussi précis que celui des biopsies approuvées (avec une différence de 2 % seulement). L’étude, qui comptait près de 40 000 images analysées par 19 dermatologues, a notamment démontré qu’il existe une réelle corrélation entre la qualité des données utilisées et le résultat final : avec des données de qualité, l’IA pouvait atteindre une précision allant jusqu’à 75 %. En revanche, l’utilisation de données de moindre qualité réduit ce score à 64 %. Cette baisse était principalement due au fait que les modèles d’IA avaient tendance à reproduire les décisions des dermatologues, au lieu d’analyser eux-mêmes la relation entre le visuel fourni et les données vérifiées. En découlent deux enseignements : l’efficacité des modèles dépend des données utilisées et une forte dépendance au facteur humain.
L’IA est un outil qui reproduit le processus humain de prise de décision. Ainsi, lorsque celui-ci est influencé par des biais, qu’ils soient personnels, statistiques, involontaires ou systémiques, l’efficacité des décisions s’en trouve affectée.
L’éthique, un élément fondamental dans l’utilisation des données
Lorsqu’on évalue les enjeux éthiques liés à un ensemble de données, il est essentiel de comprendre les raisons de la collecte, la provenance des données, leur contexte, les collecteurs, ainsi que les résultats historiques des patients qui ont influencé les données en premier lieu. De plus, évaluer ce qui n’a pas été recueilli et vérifier si l’échantillon est réellement représentatif demeure un défi, même en augmentant sa taille.
Une autre étude réalisée par l’Université de Chicago a quant à elle exploré l’utilisation d’un modèle d’IA pour détecter avec précision les tumeurs et déterminer les taux de survie des patients en se basant sur des images de tissus. Au premier abord, le modèle semblait concluant. Cependant, l’étude a révélé que les spécialistes avaient utilisé des formules de coloration, des calibrations de scanner et des amplifications différentes, qui indiquaient toutes l’établissement dans lequel les images avaient été prises. Ainsi, au lieu de calculer les taux de survie des patients à partir de ces images, l’IA les a mis en corrélation avec les taux de survie historiques de ces hôpitaux individuels, ce qui remet en question la pertinence de ces résultats. Les chercheurs ont également souligné que, même si les conclusions sont validées en externe, cela ne signifie pas que les modèles sont exempts de biais tirés des systèmes de coloration spécifiques aux établissements. Dans certains cas, cette méthode était suffisante – lorsque les résultats pouvaient être vérifiés par des humains. Dans d’autres cas, les conséquences pouvaient être mortelles.
C’est en vue de répondre à ces obstacles que les données synthétiques entrent en jeu. La possibilité de prendre un échantillon représentatif de données et de l’agrandir artificiellement pour former des modèles d’IA est inestimable, non seulement en termes de coûts, mais aussi d’un point de vue éthique.
Les données synthétiques peuvent pallier les lacunes
Les données synthétiques sont constituées d’informations automatiquement générées, annotées, extrapolées et adaptées à partir d’échantillons entièrement représentatifs. Elles reproduisent les propriétés statistiques de l’ensemble original de données en l’adaptant à la taille requise sans en altérer la pertinence. Cela permet de masquer les éléments qui ont été utilisés pour les constituer, ce qui représente un véritable avantage dans le domaine médical. En effet, les données remontent souvent à plusieurs dizaines d’années et, à mesure que la médecine évolue, des décisions autrefois considérées comme éthiques peuvent perdurer dans les bases de données et être utilisées dans les modèles d’IA, même si leur valeur éthique a changé entre temps.
Des données concernant des patients issus de régions historiquement défavorisées peuvent conduire les modèles d’IA à établir une corrélation erronée entre la situation géographique et les résultats des patients. En réalité, il est possible que les patients de cette région n’aient consulté un médecin que lorsque les symptômes devenaient trop contraignants.
D’un point de vue opérationnel, il existe généralement trois phases clés pour former un modèle d’IA :
1- Une équipe de développement reçoit une demande pour qu’un modèle effectue une tâche spécifique.
2- Lors de la construction de ce modèle, l’équipe de développement demande des données dans le cadre des paramètres du projet.
3- Au sein du département, il incombe à l’équipe chargée des données d’obtenir, de conditionner et de fournir ces données qui peuvent alors être transférées dans le processus d’analyse.
Si certains experts ne disposent pas des compétences nécessaires pour utiliser les données de manière éthique et pragmatique à tout moment de ce processus en trois étapes, des biais pourraient se glisser. Par exemple, les travailleurs de la donnée pourraient fournir des informations non représentatives ou les développeurs pourraient utiliser des données dans un modèle d’IA qui n’est pas aligné avec le cas d’utilisation final. De plus, il est possible que le professionnel de santé ayant demandé le modèle ne dispose pas des compétences analytiques nécessaires pour comprendre les limites du modèle d’IA, ce qui réduit également la capacité d’identifier d’éventuelles erreurs.
Au fur et à mesure que de plus en plus d’experts pourront accéder aux données et les analyser, le processus évoluera automatiquement vers une plus grande collaboration, ce qui constitue une première étape importante pour éviter les biais liés à l’IA. Des équipes diversifiées sur le terrain sont bien plus à même de repérer les erreurs avant qu’il ne soit trop tard. Pour être en mesure de fournir des modèles d’IA ayant des résultats représentatifs, il est nécessaire d’améliorer les compétences au sein du département afin de faciliter le travail sur les données. Pour cela, il est essentiel de sensibiliser l’ensemble des collaborateurs sur l’importance de la qualité des données. L’élimination des barrières qui existaient autrefois entre les employés et les nouvelles technologies, ainsi que la création d’une approche solide centrée sur la donnée, permettront d’alimenter les modèles d’IA avec des données de meilleure qualité, ce qui se traduira par de meilleurs résultats pour les patients.
____________________________
Par Raphaël Savy, Vice-Président France et Europe du Sud chez Alteryx