A quel moment ma photo est une donnée à caractère personnel ?
Par Damien Grangé, Mastère Spécialisé en Management Digital 2020 @ESSCA le 06/11/2020
Cet article regroupe plusieurs réflexions personnelles postées préalablement sur le blog de mon établissement, et à venir, sur le caractère personnel de nos photographies. Cette partie vise à présenter un cadre de réflexion global concernant l'encadrement juridique de nos photographies. Une seconde partie, dédiée à la présentation d'une échelle d'identification sera bientôt publiée.
Sommaire :
- Petit rappel
- La reconnaissance faciale, ça marche comment ?
- La question de la finalité ?
- Dans quelle base de données fouiller ?
- Des évolutions technologiques conséquentes ?
1) Petit rappel :
A) Une définition juridique :
Extrait issu du site internet de la Commission Nationale de l'Informatique et des Libertés (CNIL): Donnée personnelle
Le rappel sera dense mais me semble nécessaire. En tant que telle, votre photo n’est pas une donnée à caractère personnel. La donnée à caractère personnel c’est votre image, c’est une information, un attribut de la personnalité. La photographie désigne le support sur lequel se trouve votre image. Et vos photos peuvent bénéficier d’un encadrement juridique plus important si votre image est présente dessus. C’est pourquoi on retrouve le terme « image » dans la page de la CNIL consacrée à la définition de la notion de donnée personnelle.
Extrait issu du site internet de la Commission Nationale de l'Informatique et des Libertés (CNIL): Une donnée à caractère personnel, c'est quoi ?
C’est dans un souci de facilitation et de compréhension pour le plus grand nombre qu’on dira qu’une photo constitue une donnée personnelle. Comme peut par exemple le présenter la CNIL dans une autre page dédiée à la notion. Même si le A noter en rouge tend bien à indiquer qu’une photographie ne constitue pas une donnée personnelle si on ne peut pas vous identifier dessus. J’ai moi également pu faire le raccourci et le présenter grossièrement dans le cadre d’une de mes anciennes publications que je vous invite à consulter.
Article 51 du Règlement Général sur la Protection des Données (RGPD) sur le site de la Commission Nationale de l'Informatique et des Libertés (CNIL)
Les considérations du RGPD permettent d’éviter tout doute à ce sujet. On considère la photographie comme une donnée biométrique si et seulement si elle permettent l’identification ou l’authentification unique d’une personne physique.
B) Quelle est la problématique ?
Un ami juriste m’a gentiment demandé où je voulais en venir, puisqu’en pratique, selon lui, une photo était toujours à considérer comme une donnée personnelle, car capturant une image et donc permettant une identification ou authentification. En réalité les choses sont beaucoup plus compliquées.
Voici deux photographies :
1 Entre les deux, laquelle est à considérer comme une donnée personnelle car permettant une identification ou authentification ?
Réponse évidente. C'est la A.
Je complique :
Vous avez les résultats (format jpg) à respectivement 100% / 80 % / 60 % / 40 % / 20 % et 0%.
2 Quelles sont les photographies à considérer comme des données personnelles car capturant mon image et permettant à ce titre de m’identifier ou m’authentifier ?
Là c’est beaucoup plus dur. Je vous rassure, la bonne réponse n’existe pas. Ou si elle existe je ne la connais pas.
C) Pourquoi j’estime la question importante ?
Pour répondre à mon ami juriste, suite au petit test proposé plus haut, il a la preuve qu’une photographie peut ne pas permettre d’identifier autrui, puisque dépendant de la qualité de la photo en question. Considérer toutes mes photographies comme étant des données à caractère personnel reviendrait à dire que les photographies A/B/C/D/E – voire F – en sont, et ce sans même se demander si oui ou non je suis identifiable ou authentifiable. Ce qui, certes, protégerait d’autant plus l’internaute ; mais ne me semble pas en adéquation avec l’esprit de l’article 51 présenté du RGPD. Texte qui part de la volonté d’encadrer au maximum les pratiques de collecte et d’analyse des données en fonction des usages abusifs que peuvent en faire les entreprises ; et non pas de la volonté de leur empêcher toute exploitation de ces données à titre préventif. Tandis que considérer qu’une photo doit être protégée uniquement si elle possède mon image permet un jugement beaucoup plus fin et un traitement des photographies au cas par cas. Comme présenté en question 2, la frontière entre une photographie permettant d’identifier quelqu’un, et celle ne le permettant pas est extrêmement floue. In fine le juge aura le dernier mot, et pour trancher. On peut solliciter son appréciation souveraine : « la loi attribue ainsi aux juges du fond le pouvoir souverain d’appréciation, c’est-à-dire le pouvoir qui permet d’apprécier un élément de fait. »
Conclusion (1) :
Dans le cadre de la transformation numérique de nos sociétés, la capture d’images physiques et leur analyse est de plus en plus importante, qu’il s’agisse par exemple du développement des technologies de reconnaissance faciale des individus, de leurs expressions et émotions, ou de collecte et analyse de photographies. A ce titre, on peut considérer que très vite ce simple pouvoir d’appréciation du juge sera insuffisant puisque devant être porté sur des volumes croissants d’images, vidéos, voire enregistrements audio, et peut-être autres futurs supports dont je ne soupçonne pas l’existence. Aussi, il me semble pertinent de tenter de trouver des éléments pouvant caractériser la limite en droit entre les supports permettant une identification, et ceux ne le permettant pas. Et pour ça, il faut déjà un peu se renseigner sur le fonctionnement de la reconnaissance faciale.
Partie issue de cet article rédigé pour le blog de mon établissement.
2) La reconnaissance faciale, ça marche comment ?
A) Schématiquement 3 étapes
La page wikipédia intitulée Système de Reconnaissance Faciale permet de se faire une bonne première idée. La capacité d’un système à reconnaître un visage dépendra :
- De sa capacité à détecter un visage.
- De sa capacité d’analyse de ce dernier, et de présentation d’un résultat sous forme numérique.
- De sa capacité de comparaison avec une base de données.
L’étape numéro 1 est commune à beaucoup de programmes, les différences notables de résultats s’opèrent sur l’étape 2, soit la manière dont on analyse le visage et les données qu’on parvient à collecter sur ce dernier. Différence également sur l’étape 3, soit la base de données avec laquelle on peut comparer ce résultat pour identifier l’individu. La partie de la page dédiée aux biais algorithmiques donne beaucoup plus de précisions sur ces notions et explique en partie les différences de résultat.
B) Qui doit pouvoir effectuer la reconnaissance ?
L’identification d’un individu peut être faîte de deux manières. Via un programme (I), ou par un être humain (II). Jusque-là rien de surprenant.
I) Via un Programme
On peut imaginer des supports sur lesquels notre image est présente, qui puissent permettre une identification via l’utilisation d’un programme, mais pas via un être humain. C’est par exemple le cas d’images partiellement détériorées. Prenons les photos que je vous ai précédemment montré.
On peut concevoir qu’il soit possible à un programme d’analyser l’image A, faire une recherche dans une base de données – ici tout le web -, et retrouver l’image B puisque c’est une de mes anciennes photos de profil Facebook. Ce dont, manuellement, un humain serait incapable. Un lecteur pourrait toujours me dire qu’il me reconnaît dès qu’il voit la photographie A, et tant mieux pour lui ! Je souhaitais juste illustrer mon discours avec mes photos plutôt qu’avec celles d’un inconnu.
II) Via un être humain
Cette option est celle qui intuitivement semble le plus contre-intuitive. Comment se fait-il qu’un humain soit capable de reconnaître quelqu’un là où un programme n’en serait pas capable ? Simplement parce que même s’il y a des différences de résultat notables en fonction des programmes utilisés, on peut tout de même retrouver des patterns dans la manière d’analyser les visages. L’idée est donc de trouver sur une photographie les points permettant une identification, et les changer. Ainsi, quand le programme analysera une photo et la comparera à sa base de données (étape 3), il ne tombera sur aucun résultat et classera ma photo en tant que nouvelle personne. Ce que je dis peut sembler abstrait, donc je vous renvoie à l’article de clubic du 19 août 2020 présentant Fawkes, un programme qui modifie légèrement vos photos pour empêcher la reconnaissance faciale. Cette technologie serait « efficace à 100% » contre l’Amazon Rekognition, le Face API de Microsoft API et Face++.
A gauche les photos proposées, à droite les versions légèrement modifiées. Vous, vous pouvez vous dire que c’est les mêmes personnes, néanmoins les technologies listées au dessus, elles, ne le peuvent pas.
Un lecteur pourrait me dire qu’il peut très bien imaginer que de nouvelles versions de ces technologies sortent afin de contourner les modifications opérées, et de tout de même pouvoir identifier les individus sur les photographies. C’est totalement exact, et on peut imaginer que Fawkes se mette également à jour en retour. On peut anticiper une future guerre à laquelle se livreront technologies de reconnaissance faciale, et technologies d’anonymisation. Et dans une mesure où ces technologies sont de plus en plus utilisées dans le cadre de politiques sécuritaires, on peut penser les enjeux juste gigantesques.
Conclusion (2)
Il est possible qu’un humain et un programme ne puissent pas vous identifier sur les mêmes photos. A ce titre on peut se demander « sur quelles photos votre image constitue une donnée personnelle à protéger ; celles où vous pouvez être identifié par un programme, ou celles où vous pouvez l'être par un humain ? » Or, le RGPD – encore lui -, dissipe tout doute. Quelles que soient les photographies en question, elles constituent une donnée personnelle quand elles sont utilisées pour identifier une personne. Si on veut trouver un encadrement juridique permettant de distinguer à quel moment un support visuel permet de nous identifier ou pas, il va falloir prendre en considération ces processus d’identification radicalement différents, tout en conservant à l’esprit l’idée que ces processus vont évoluer.
Partie issue de cet article rédigé pour le blog de mon établissement.
3) La question de la finalité ?
Dans la conclusion d’un de mes anciens articles, j’ai pu indiquer que le droit ne s’intéressait que rarement par plaisir à une question. Il le fait et réglemente quand il y en a besoin pour protéger les gens. Tout est donc question d’usage. Or si on souhaite proposer un encadrement légal pour nos photographies : les qualifier de données personnelles ou non, il faut parler de l'usage ; de la finalité. Voici de nouveau ma photo de profil Facebook :
Imaginons un instant que ce ne soit pas ma photo mais celle d’un inconnu. Puis imaginons deux activités distinctes pour lesquelles un programme précis a vu le jour :
A) Association à d’autres photographies :
Dans cet exemple je compare ma photographie avec celles présentes dans une banque d’images. J’effectue un rapprochement. Ce résultat me permet de savoir que l’individu sur la photo de départ est sans doute le même que celui présent dans cette banque d’images.
Néanmoins, les individus sur ces photographies sont-ils pour autant identifiés ?
Pas nécessairement. A moins de connaître au préalable l’identité de la personne sur la photo d'origine ou l’identité de la personne sur la photographie contenue dans la base de donnée, vous n’avez pas moyen d’attribuer aux photos une identité propre. Autrement dit ce n’est pas parce qu’un programme fait du regroupement de données entre des photos, que ce même programme est en mesure d’identifier un individu. Contrairement au second exemple que je vais vous proposer.
B) Associer une identité à une photographie :
Premier exemple :
Cette situation permet de présenter un cadre où un programme peut associer une identité à une photographie. Via la comparaison avec une photo pour laquelle mon identité est déjà associée. C'est à dire qu'ici en plus d'avoir une base de données contenant des photographies, on a le prénom de ces personnes. Ce qui permet donc suite au comparatif de donner l'identité de la personne sur la personne d'origine.
Ce processus fonctionne bien évidemment dans le sens inverse ; on peut faire de l'enrichissement de bases de données.
Par exemple :
En bref, vous avez eu deux utilisations distinctes de ma photo : association ou identification. On peut bien évidemment en imaginer plus. Les enjeux en terme de sécurité ne me semblent pas être les mêmes dans les deux situations et sont plus élevés dans le cadre de l’identification d’un individu. Or on considère la photographie comme une donnée personnelle si et seulement si son traitement permet l’identification ou l’authentification unique d’une personne physique.
Ajoutons que dans la plupart des cas au moment de la collecte de la photo un consentement aurait pu ou dû être recueilli.
Conclusion (3)
Recueillir le consentement d’une personne pour la prendre en photo et l’utiliser, n’est sur la base de ce seul texte, que facultatif si le mode de traitement ne permet pas de l’identifier. Ajoutons néanmoins que pour éviter la plupart des abus, le droit à l’image prend le relais et est particulièrement structuré. Citons à ce titre l’article 226-1 du code pénal, portant sur les photos prises dans un espace privé, et l’article 226-2 du code pénal, relatif à la transmission de ces documents. De plus dans les exemples proposés tout est automatique et ne fait pas intervenir d’humains. Or, j’ai pu indiquer qu’humains et programmes n’étaient pas en mesure de reconnaître les mêmes personnes (1). Aussi, si les modalités de reconnaissance d’une personne sur la base de sa photo impliquent une vérification humaine, ces photos me sembleraient être à considérer comme des données personnelles, ce qui ne serait pas forcément le cas dans un processus totalement automatique.
Partie bientôt rédigée pour le blog de mon établissement.
4) Dans quelle base de données fouiller ?
J'ai pu expliqué que la reconnaissance faciale était divisée en trois étape : la capacité à détecter un visage (1), la capacité à l’analyser et fournir un résultat numérique de cette analyse (2), et le comparatif de ce résultat avec une base de données (3). Ce qui implique logiquement que la base de données à un rôle à jouer dans le processus d’identification d’un individu. Je vous invite à reprendre mon article portant sur l’importance de la finalité du processus de traitement. Je vais utiliser le même exemple. Voici une photo que vous connaissez bien :
Imaginons que j’effectue un comparatif avec d’autres photos dans une base de données :
A) Le cas où tout fonctionne correctement
Dans cet exemple j'obtiens dans le résultat que la personne sur la photographie initiale c'est Damien. En effet, en comparant cette photo à d’autres sur lesquelles cette personne était identifiée, on a suffisamment d’éléments qui correspondent pour estimer que c’est Damien. C'est d'ailleurs ainsi que fonctionne la suggestion d’identification sur Facebook.
B) La personne ne se trouve pas dans la base de données
Dans cette situation aucune correspondance n’est établie entre la photographie de départ et celles contenues dans la base de données. C’est bien normal parce qu’aucune de mes photos ne s’y trouve.
Est-ce pour autant que la photo en question n’est pas une donnée personnelle ?
Non.
On peut se tromper et chercher à établir une correspondance en utilisant la mauvaise base de données. J’ai pu expliquer dans la première partie qu’en fonction du programme ces derniers pouvaient avoir une marge d’erreur plus ou moins grande. On peut imaginer que d'autres programmes parviennent à m'identifier en utilisant d'autres bases de données. On peut même imaginer que le programme se trompe et associe mon identité à quelqu'un me ressemblant.
C Plusieurs résultats possibles pour une même photographie
Là, la base de données est un poil plus volumineuse. J’utilise la recherche image proposée par Google. J’essaie donc de retrouver l’individu parmi l’ensemble des photos référencées auxquelles Google peut accéder. J’obtiens à gauche une trentaine de possibilités. L’idée c’est que plus il y a d’individus dans une banque d’images, plus il est probable que le nombre de personnes que le programme jaugera ressembler à la photo de départ sera important. De même, plus la photo est de mauvaise qualité, plus le nombre de résultats probable sera élevé.
Dans cette situation précise une nouvelle question se pose : Faut-il nécessaire que suite à un comparatif on n'arrive qu'à un seul résultat probable pour jauger que la personne est identifiée et que la photo d'origine constitue du coup une donnée personnelle ? Peut-on considérer qu'un certain seuil (exemple : 15% des internautes contenus dans la base de donnée) suffit pour considérer une photo comme une donnée personnelle ? Appelons ce seuil le Pourcent d'Identification.
D Echanges
Un sceptique me dirait : « Damien, dans le cadre des exemples, le comparatif est effectué avec des photos en bonne qualité. Là il y a tous les éléments qu’il faut pour te reconnaître. Du coup il faudrait voir dans le cadre de photos de mauvaise qualité. ». Ce serait imaginer que les individus ne sont identifiés, ne s’identifient, ou ne sont identifiables que sur des photo en bonne qualité. Or, ce n’est pas toujours le cas, preuve en est :
Deux photos Facebook de mauvaise qualité sur lesquelles je me suis identifié
Sans nécessairement tomber dans ces extrêmes, on peut prendre comme exemple toutes les photos sur lesquelles vous êtes identifiés alors que vous êtes mal cadrés, avez simplement une partie du visage qui de visible, etc… En bref, vous pouvez être identifiés sur des photos en mauvaise qualité. Donc une identification d’un de ces types est envisageable :
Situation I :
Situation II :
Situation III :
On peut penser à deux techniques d’identification, la première, basique, consiste à retrouver des informations communes entre deux visages pour les associer. La seconde consiste à procéder par élimination. C’est à dire qu’en sachant qu’une personne se trouve dans une banque de photos donnée, je peux la retrouver en éliminant un à un toutes les personnes qui ne partagent pas certain nombre de point commun avec lui. Un peu comme dans une partie de « Qui est-ce ? ».
Conclusion (4)
Comme indiqué, le choix de la base de données est crucial pour savoir si oui ou non le processus de traitement de la photographie permettra d’identifier un individu. Cruciale car posant la question de la banque de données qu'on peut utiliser, ou qu'on ne peut pas utiliser à des fins d'identification. Doit-on privilégier une approche où on ne peut se référer qu’à l’ensemble des photos accessibles publiquement ? Est-ce qu’on pourrait pas imaginer, à des fins légales, utiliser celles qui ne sont pas publiques ? Autrement dit analyser et utiliser des données personnelles, pour savoir si d’autres photos sont des données personnelles. Est-ce que dans certains cas spécifiques laisser le pouvoir de décision au juge n’est pas plus pertinent ? Je n’en ai pas la moindre idée. Ces questions sont largement au delà de ma compétence. Je me dis qu’une solution serait que l’Etat possède la photo d’identité, régulièrement actualisée, de l’ensemble des citoyens. Mais je doute sincèrement que ça plaise à mes concitoyens. D’ailleurs c’est vraiment cool que des alternatives commencent à émerger.
Partie bientôt rédigée pour le blog de mon établissement.
5) Des évolutions technologiques conséquentes ?
Ce que je souhaite c'est pouvoir définir un encadrement juridique pertinent pour définir à partir de quel moment un individu est identifiable. Un point à prendre en compte est évidemment l'évolution technologique. J'ai déjà pu expliquer qu'humains et technologies n'avaient pas les mêmes capacités de reconnaissance.
A) Reprenons la situation donnée en première partie:
Sur lesquelles de ces photographies un programme est en mesure de détecter suffisamment d’informations pour procéder à une identification ?
Y répondre est impossible. La capacité de détection des informations d’une photo dépend du programme utilisé. Et des programmes actuellement, il y en a des tas. Pour répondre à la question, il faudrait donc théoriquement tous les essayer...
B) Une course finale à la performance
J’appelle performance la capacité d’un programme à permettre une reconnaissance faciale. « En règle générale, les logiciels de reconnaissance faciale actuels analysent environ 80 caractéristiques du visage que l’on appelle aussi points nodaux. Parmi ces caractéristiques, on compte la distance entre les yeux, la longueur du nez, la forme des joues, la profondeur des orbites, ou encore la largeur de la mâchoire. » Lebigdata : Reconnaissance faciale : qu’est-ce que c’est et quels sont les dangers ?
Ces points nodaux sont relevés grâce à des systèmes de points de mesure.
- Plus on collecte de points pertinents, et d’informations, plus il sera simple d’effectuer un comparatif et de reconnaître un visage.
- A l’inverse, moins on en collecte, plus ce comparatif sera difficile à effectuer, ou donnera un nombre d’associations importants -cf partie sur le choix de la base de données-.
Dans son article, Lebigdata indique que la plupart des programmes actuels fonctionnent selon un modèle à 80 caractéristiques ; ce qui sous-entend que certains programmes fonctionnent selon un modèle de reconnaissance avec moins de caractéristiques. C’est le cas dans l’infographie présentée plus haut. Dans une course à la performance, on peut imaginer que ces programmes se perfectionnent, et qu’ainsi il soit théoriquement possible d’identifier une personne grâce à un nombre sans cesse plus restreint de caractéristiques, détectées via un nombre sans cesse moins élevé de points de mesure.
Photo d'illustration récupérée sur une banque d'images en ligne.
Autant dans la situation visant à prélever un nombre sans cesse plus croissant de caractéristiques, il est difficile d’imaginer l’existence d’une limite théorique. Autant dans la situation visant à identifier quelqu’un à partir d’un nombre restreint de caractéristiques, ou de points de mesure, on peut imaginer que la capacité à identifier, évoluera jusqu'à une asymptote. En effet au bout d'un moment même la machine la plus performante aura plusieurs candidats et aucun moyen de discriminer entre les candidats. Donner un pixel d’une image à n'importe quelle machine, même théorique, ne permettrait pas d’identifier quelqu’un. Je pense que ce seuil correspondrait à une donnée robuste mathématiquement quantifiable. Appelons ce seuil Le Seuil D.
Conclusion (5)
Formellement, on peut considérer qu’une photo est une donnée personnelle à protéger dès lors qu’un programme pouvant être utilisé par un tiers est en capacité d’identifier un individu. Ceci implique deux notions :
- La classification d’une même photographie en donnée personnelle ou non varierait au fil des progrès technologiques effectués. Ce qui rend obligatoire pour les hébergeurs de rester en alerte.
- Il faudrait nécessairement un organisme étatique et des personnes dont la mission serait de surveiller cette évolution technologique pour fixer les limites légales à partir desquelles on considère qu’une photo constitue une donnée personnelle.
Pour ce second point, on peut considérer en France que ce soit une des missions de la Commission Nationale de l'Informatique et des Libertés (CNIL), ou même dans une moindre mesure du Service à l’Economie Numérique… Par ailleurs, pour plaisanter plusieurs amis m’ont indiqué que pour une fois ils seraient ravis de savoir que leurs impôts serviraient à quelque chose.
Plusieurs objections sont néanmoins possibles :
- Dans la mesure où la vocation du Règlement Général sur la Protection des Données (RGPD) est d’unifier les règles en matière de collecte, protection et utilisation des données personnelles, on peut imaginer que cette mission soit celle d’une autorité européenne, au risque que les citoyens des Etats membres de l’Union Européenne ne bénéficient d’une protection différente sur leurs photographies.
- Dans tous les cas je pense que cette classification un jour, sera fixée et n’évoluera plus, dans la mesure où l’on aura atteint l’asymptote de la capacité à identifier un individu que je soulevais plus haut : Le Seuil D.
- Ajoutons encore une fois qu'un programme peut ne pas permettre d'identifier un individu, là où un humain en est capable. Il se peut que cet état de fait change, mais en attendant ce système serait imprécis car ne prenant pas en compte cette dimension humaine.
Néanmoins, il me semble envisageable de considérer une donnée comme étant personnelle dès l'instant où un programme est en capacité de procéder à une identification, puis dans un second temps de contrôler via l'Homme, qu'en effet l'identification est impossible.
Partie bientôt rédigée pour le blog de mon établissement.
Merci pour votre lecture. Je tiens à préciser une nouvelle fois que je ne suis pas juriste, je fais du marketing. A ce titre il se peut que je me trompe sur plein d'éléments. J'ai sincèrement envie et besoin que des professionnels me fassent un retour, ne sachant pas trop avec qui aborder ces thématiques, nouvelles et techniques. J'espère néanmoins avoir stimulé votre réflexion. Une seconde partie arrive très vite.
Les articles sur le blog de mon établissement :
Partie 1 : A quel moment ma photo est une donnée à caractère personnel ?
Partie 2 : La reconnaissance faciale, ça marche comment ?
Partie 3 : A venir.
Partie 4 : A venir
Partie 5 : A venir
Mes articles LinkedIn :
Données Personnelles et Attributs de la Personnalité
Données personnelles. Qui est-ce ?
Personne exceptionnelle. Données personnelles.
Collecter des données en temps de COVID-19
Photographies et échelle d'identification
Commentaires sur l'émission Monétisation des données : la data aux œufs d’or