Pseudonymiser des documents grâce à l'IA
Introduction
À quoi sert ce guide ?
De nombreuses administrations publiques sont confrontées à des problèmes de pseudonymisation dès lors qu'elles ont à publier des documents textuels contenant des données à caractère personnel. Ces documents recouvrent par exemple des décisions de justice, des actes administratifs, des procès-verbaux, des notes, etc.
C'est dans ce cadre qu'Etalab a développé un outil d'intelligence artificielle de pseudonymisation pour le Conseil d'État, qui publie en open data des décisions de justice administrative. Cet outil est open-source et peut donc être librement réutilisé pour d'autres projets de pseudonymisation.
Pour accompagner la publication de cet outil technique de pseudonymisation, nous pensons qu'il est nécessaire de publier également un guide qui expose ce qu'est la pseudonymisation de documents textuels et, lorsque c'est possible, l'utilisation de l'intelligence artificielle (IA) pour la mettre en œuvre.
À qui s'adresse ce guide ?
Ce guide s'adresse principalement aux organismes publics, et plus particulièrement aux personnes chargées du traitement et de la protection de données à caractère personnel dans ces organismes. Ces personnes peuvent être des agents publics, internes à l'administration, mais aussi des prestataires. Dans ce dernier cas, le sous-traitant devra veiller au respect des obligations relatives à la sous-traitance imposées par le RGPD (voir le guide de la CNIL sur ce sujet).
Ce guide pourra également intéresser d'autres acteurs faisant face à un besoin de pseudonymisation de documents textuels, dans le cadre de développements de services ou de produits à partir de données à caractère personnel.
Sommaire
Ce guide est composé de trois parties et d'un lexique :
La première partie permet de découvrir ce qu'est la pseudonymisation, pourquoi elle est utile dans les administrations publiques et présente les méthodes de pseudonymisation existantes.
La deuxième partie expose une vue d'ensemble de la méthode basée sur l'IA que nous avons développée à Etalab.
La troisième partie s'adresse à un public plus technique, comme des data scientists, et présente de manière plus détaillée la mise en œuvre de cette approche basée sur l'IA.
Le lexique proposé en annexe vous permet finalement de retrouver une définition des termes techniques mentionnés tout au long du guide.
::: tip Ce que ce guide n'est pas
un guide juridique sur la protection des données à caractère personnel ;
un guide sur la pseudonymisation de données autres que textuelles (en particulier tabulaires) ;
un guide sur la sécurité des données et des systèmes d'information. :::
Dernière mise à jour