Face à l’invasion de l’IA générative, les entreprises naviguent entre opportunités stratégiques et dilemmes éthiques liés à l’utilisation des données. Comment exploiter son potentiel tout en gérant les implications éthiques et réglementaires ? Voici quelques éléments de réponse et conseils pratiques.
L’IA générative (GenAI) promet aux entreprises du monde entier un avantage concurrentiel. Elle est au cœur des préoccupations de tous les dirigeants d’entreprise.
Jusqu’à présent, la plupart des débats suite à la croissance rapide de cette technologie se sont focalisés sur le traitement des données. À ce titre, on s’est surtout intéressé aux questions de puissance de calcul, d’infrastructure, de stockage, de compétences, etc. Mais la généralisation de l’IA Générative soulève également un certain nombre de questions plus fondamentales liées à l’éthique. Quid en effet de l’utilisation des données ?
Dans cet article, nous aborderons trois exemples de dilemmes éthiques concernant les données et l’IA Générative, et étudierons leurs implications pour les entreprises qui élaborent leurs stratégies à long terme en matière d’IA.
Dilemme nº1 : Le débat entre les données publiques et privées
Malgré toutes ses promesses, l’IA Générative n’est pas plus performante que les données que vous lui fournissez. Les entreprises sont donc tentées d’utiliser toutes les données auxquelles elles ont accès. Toutefois, ce n’est pas aussi simple que cela, car cela soulève des questions relatives à la vie privée, aux préjugés et aux inégalités.
Au niveau le plus élémentaire, on peut diviser les données en deux catégories générales : les données publiques et les données privées, les premières étant beaucoup plus objectives et susceptibles d’être biaisées que les secondes (les premières pourraient être décrites comme ce que l’on veut que le monde voie, les secondes comme des faits). Mais si les données privées peuvent être plus précieuses, elles sont aussi plus sensibles et confidentielles.
En théorie, des réglementations telles que la loi sur l’IA devraient commencer à restreindre l’utilisation des données privées – et donc retirer la décision de les utiliser aux entreprises – mais en réalité, certains pays ne feront pas la distinction entre les deux types de données. C’est pourquoi les réglementations trop strictes risquent d’avoir une efficacité limitée et de désavantager ceux qui les suivent, ce qui pourrait conduire leurs modèles d’IA générative à fournir des conclusions inférieures ou biaisées.
Le domaine de la propriété intellectuelle (PI) est un bon exemple d’une situation réglementaire similaire – les marchés occidentaux ont tendance à respecter les lois sur la PI alors que les marchés orientaux ne le font pas, ce qui signifie que les marchés orientaux peuvent innover beaucoup plus rapidement que leurs homologues occidentaux. Et les entreprises ne sont pas les seules à pouvoir exploiter cette inégalité dans l’utilisation des données : les cybercriminels ne vont pas se contenter de respecter l’utilisation éthique de l’IA et les lois sur la protection de la vie privée dans leurs attaques. Ceux qui respectent la loi se retrouvent dans la difficile situation d’avoir à se battre avec les poignets attachés dans le dos.
Dilemme nº2 : Le RGPD contre l’IA Générative
Pendant combien de temps devez-vous conserver vos données ?
Les modèles d’IA Générative sont formés sur des ensembles de données, et plus l’ensemble est important, plus le modèle est performant et plus ses conclusions sont précises. Mais ces ensembles de données doivent être cohérents : si vous supprimez des données, vous supprimez en fait du matériel d’apprentissage, ce qui pourrait modifier les conclusions de l’algorithme.
Malheureusement, c’est exactement ce que le RGPD demande de faire aux entreprises : ne conserver les données que le temps nécessaire à leur traitement. Que se passe-t-il si le RGPD vous demande de supprimer d’anciennes données ? Ou si quelqu’un demande que ses données soient supprimées ?
En plus des répercussions financières et de durabilité associées à la nécessité de réformer votre modèle d’IA Générative, dans le cas d’une voiture autonome par exemple, l’effacement des données pourrait entraîner de réelles conséquences en termes de sécurité.
Alors, comment trouver un équilibre entre les deux ?
Dilemme nº3 : La sécurité contre la catégorisation
Comment éduquer l’IA Générative pour qu’elle évite d’utiliser des données confidentielles ?
La loi oblige les entreprises à sécuriser leurs données, sans quoi elles s’exposent à de lourdes amendes. Mais pour sécuriser leurs données, il est essentiel qu’elles commencent par les catégoriser ou les classer pour comprendre avec quoi elles travaillent, et déterminer la manière de les traiter en conséquence.
Jusqu’ici, rien de plus simple, mais compte tenu des énormes volumes de données que les entreprises créent quotidiennement, un nombre croissant d’entre elles se tournent vers l’IA Générative pour accélérer le processus de catégorisation. Et c’est là que le bât blesse. Il est essentiel d’attribuer le plus haut niveau de sécurité aux données confidentielles et de les tenir à l’écart des moteurs de l’IA générative.
Apprendre à l’IA à classer des données confidentielles et à les exclure, sans lui donner d’exemples spécifiques, représente un défi complexe. Nos recherches montrent que seules 46 % des entreprises interrogées dans le monde ont catégorisé leurs données en fonction de leur importance. Ce problème reste une question urgente pour la majorité d’entre elles.
Aborder l’IA Générative en gardant ces problématiques à l’esprit
Il existe de nombreux éléments à prendre en compte et ce ne sont là que trois des nombreuses questions auxquelles les entreprises sont confrontées quand elles définissent leur approche d’IA Générative. Peut-on alors se contenter d’attendre que d’autres fixent les règles ? Ou pire, les ignorer au détriment d’une mise en œuvre plus rapide de l’IA Générative ?
Pour répondre à cette question, une chose est sûre : inspirons-nous de la manière dont les entreprises ont fait évoluer leur approche concernant l’empreinte carbone. Malgré l’émergence croissante de législations dans ce domaine, il a fallu de nombreuses années pour en arriver là. J’imagine qu’il en sera de même pour l’IA Générative.
Dans le cas de l’empreinte carbone, ce sont les entreprises qui ont fini par déterminer et définir leur politique, mais en grande partie sous la pression de leurs clients. À l’image des clients qui changent leurs habitudes d’achat pour soutenir des marques éthiques, on peut s’attendre à ce qu’ils sanctionnent les entreprises qui exploitent l’IA de manière non éthique.
Dans ces conditions, que doivent faire les entreprises pour gérer leur approche d’IA Générative ?
1- Séparer les données publiques des données privées de manière rigoureuse et protéger autant que possible l’utilisation des données privées. En termes de concurrence, un tel cloisonnement peut vous porter préjudice, mais d’un point de vue éthique, il serait bien trop dangereux de ne pas le faire.
2- Cette séparation des types de données doit être également appliquée à vos moteurs d’IA : privilégiez l’IA privée pour des sources de données privées internes et évitez de divulguer des données privées sur des moteurs d’IA publics.
3- Ne pas perdre de vue les biais de l’IA et des données d’apprentissage : restreindre les IA qui établissent leur contenu sur la base d’informations publiques biaisées. Ne sous-estimez pas leur tendance à « halluciner »: Assurez-vous toujours de la véracité des résultats obtenus.
4- Priorité aux normes existantes : veillez à ce que les règles du RGPD et les pratiques relatives au « droit à l’oubli » soient respectées. Il faudra donc réfléchir à la fréquence de renouvellement du moteur de traitement de l’IA et intégrer ce facteur dans les plans et les budgets.
5- Considérez l’utilisation d’un modèle d’IA pré-entraîné ou de jeux de données synthétiques pour stabiliser votre modèle et trouver une solution pour éviter de l’entraîner à classer les données confidentielles.
6- Il est primordial de protéger vos sources de données privées. Ne permettez pas que la simplification des tâches humaines, telle que la catégorisation des données, ouvre involontairement la voie à des fuites de données de l’IA. La réponse ce n’est pas toujours l’IA Générative.
7- Tout comme pour vos données privées, étendez cette protection aux employés : établissez des règles d’usage de l’IA Générative. Proposez une formation qui précise quelles données peuvent être téléchargées vers les outils et comment les utiliser en toute sécurité.
C’est maintenant qu’il faut agir
Déjà sous pression, les entreprises, ou plus précisément leurs services informatiques et de sécurité, doivent définir leurs stratégies au plus vite pour pouvoir utiliser l’IA Générative à leur avantage.
En effet, nos recherches montrent que 95 % des entreprises utilisent déjà des outils de l’IA Générative sous une forme ou une autre (et ce, malgré des problèmes de sécurité comme ceux mentionnés ci-dessus) et 51 % anticipent une augmentation significative de leur utilisation d’ici Noël.
Elles doivent alors trouver des moyens de procéder sans compromettre les aspects que nous venons d’évoquer. En revenant à la comparaison avec l’empreinte carbone, pas besoin d’avoir réponse à tout avant d’agir. Il convient en revanche de prouver que tout est mis en œuvre pour adopter les bonnes pratiques.
___________________
Par Martyn Ditchburn, Directeur Technique de Zscaler