Développement d’un modèle d’IA et application du RGPD : 1er avis du CEPD sur la nature anonyme d’un modèle d’IA 

Interrogé par l’autorité de protection des données irlandaise, le Comité européen de protection des données (CEPD) a examiné sous quelles conditions un modèle d’IA final, développé à partir de données à caractère personnel, pouvait être qualifié d’ «anonyme ». Plusieurs interrogations se sont posées au CEPD : Un tel modèle doit-il être considéré dans tous les cas comme anonyme ou répond-il encore à la définition d’une donnée à caractère personnel ? A quel stade des opérations de traitement aboutissant à un modèle d’IA les données à caractère personnel ne sont-elles plus traitées ? 

 

 

1. Le caractère anonyme d’un modèle d’IA ?


On touche ici à la notion de donnée anonyme pour un modèle d’IA, et le CEPD annonce d’emblée qu’il n’est pas question de considérer de manière générale un modèle d’IA formé avec des données personnelles comme de nature anonyme. En d’autres termes, et sans surprise, il faut prouver le caractère anonyme du modèle considéré. 
 

Le Comité fait la distinction entre deux types de modèles d’IA selon leur mode d’apprentissage et le type de données sortantes : 

  • Les modèles d’IA qui sont spécifiquement conçus pour fournir des données à caractère personnel concernant des personnes dont les données ont été utilisées pour former le modèle, ou pour rendre ces données disponibles : dans ce cas, ces modèles d’IA incluront intrinsèquement (et généralement nécessairement) des informations relatives à une personne physique identifiée ou identifiable, et impliqueront donc le traitement de données à caractère personnel. Ces modèles d’IA ne peuvent pas être considérés comme anonymes. Le CEPD donne comme exemple un modèle génératif affiné à partir des enregistrements vocaux d’une personne pour imiter sa voix. 
  • Les modèles d’IA qui ne sont pas conçus pour fournir des données à caractère personnel liées aux données d’apprentissage. C’est sur ce type de modèle que l’avis de CEPD se concentre. 


L’EDPB considère en effet que, même lorsqu’un modèle d’IA n’a pas été intentionnellement conçu pour produire des informations relatives à une personne physique identifiée ou identifiable à partir des données d’apprentissage, des données à caractère personnel peuvent rester « absorbées » dans les paramètres du modèle et peuvent en fin de compte être extraites ou obtenues d’une autre manière, directement ou indirectement, à partir du modèle. Lorsque des informations relatives à des personnes identifiées ou identifiables dont les données à caractère personnel ont été utilisées pour former le modèle peuvent être obtenues à partir d’un modèle d’IA par des moyens raisonnablement susceptibles d’être utilisés, on peut conclure que ce modèle n’est pas anonyme.  
 

Le Comité s’appuie sur les technologies existantes qui ont mis en évidence certaines vulnérabilités potentielles qui peuvent exister dans ces modèles d’IA comme des risques de régurgitation et d’extraction de données. Ainsi, il est possible, dans certains cas, d’extraire des données à caractère personnel de certains modèles d’IA, ou simplement d’obtenir accidentellement des données à caractère personnel lors d’interactions avec un modèle d’IA (par exemple dans le cadre d’un système d’IA).  

Ainsi le CEPD précise que pour qu’un modèle soit considéré comme anonyme, il devrait être très peu probable (1) d’identifier directement ou indirectement les personnes dont les données ont été utilisées pour créer le modèle, et (2) d’extraire ces données personnelles du modèle par le biais de requêtes compte tenu de « tous les moyens raisonnablement susceptibles d’être utilisés ». On retrouve ici sans surprise aussi les termes du considérant 26 du RGPD traitant de l’anonymisation.

 2. Démontrer le caractère anonyme d’un modèle d’IA


La nature anonyme du modèle devra être démontrée et documentée par le responsable de traitement qui s’en prévaut (étude basée sur les critères de l’avis 05/2014 du WP29 sur les techniques d’anonymisation pour démontrer qu’il n’est pas possible d’isoler, de relier et de déduire des informations relatives à une personne de l’ensemble de données prétendument anonymes et lorsqu’une proposition ne remplit pas l’un des critères, une évaluation approfondie des risques d’identification doit être effectuée).
 

Le CEPD insiste sur une évaluation au cas par cas des autorités, en tenant compte de la probabilité que des données personnelles puissent être extraites ou que des individus puissent être identifiés, directement ou indirectement, à partir du modèle.  

L’évaluation de l’anonymat d’un modèle d’IA devrait également prendre en compte l’accès direct au modèle.   

En outre, les autorités de contrôle devraient évaluer, au cas par cas, si les mesures mises en œuvre par le responsable du traitement pour garantir et prouver l’anonymat d’un modèle d’IA sont appropriées et efficaces. 

L’avis fournit une liste de méthodes qui peuvent être utilisées par les responsables du traitement pour démontrer l’anonymat et qui peuvent donc être prises en compte par l’autorité de contrôle.  

Cela couvre, par exemple, les approches adoptées par les responsables du traitement, au cours de la phase de développement, pour empêcher ou limiter la collecte des données à caractère personnel utilisées pour la formation, pour réduire leur identifiabilité, pour empêcher leur extraction ou pour donner l’assurance que l’état de l’art résiste aux attaques. 

Il est important de noter que cette liste n’est qu’indicative ; elle n’est donc ni prescriptive ni exhaustive. Les responsables du traitement doivent documenter toutes les mesures mises en place et être en mesure de démontrer l’anonymat du modèle aux autorités de protection des données, le cas échéant.

 3. La base légale de l’intérêt légitime


Le CEPD reconnait que l’intérêt légitime puisse être valablement invoqué comme base légale du traitement de données personnelles dans le cadre du développement d’un modèle d’IA si les 3 conditions qu’il a récemment rappelées dans ses lignes directrices (version du 8 Octobre 2024 pour  consultation publique close aujourd’hui version non adoptée encore) sont respectées : identifier un intérêt légitime réel et pertinent, nécessité du traitement, mise en balance des intérêts avec les  droits et libertés fondamentaux des personnes concernées.
 

Le Comité donne des exemples où l’intérêt légitime pourrait être invoqué, comme l’amélioration de la cybersécurité ou l’assistance aux utilisateurs via des agents conversationnels. Cependant, il insiste sur une analyse au cas par cas, tenant compte la relation entre la personne concernée et l’organisme traitant les données, le contexte de la collecte, ainsi que la nature des données utilisées. 

Le Comité conclut en insistant sur les conséquences d’un traitement illicite de données personnelles pour développer un modèle d’IA et qui en compromettrait alors l’utilisation à moins qu’il ne soit efficacement anonymisé. Rappelons à cet égard que l’anonymisation est un traitement de données à part entière.

Partager l'article