Bien sûr que je ne suis pas un robot ! Quoique...

05.11.2018

Droit public

Bruno Rasle, Délégué général de l'AFCDP, analyse pour nous comment Google parvient à récupérer les données personnelles de millions d'utilisateurs à travers le monde, grâce au test reCaptcha, auquel l'internaute doit se soumettre pour prouver qu'il n'est pas un robot et accéder au contenu désiré. Pourtant, il existe des solutions tout aussi efficaces et qui permettent de rester dans les clous du RGPD.

Dans l’édition du journal New Yorker du 5 juillet 1993, figurait un dessin de Peter Steiner dans lequel on voyait un chien assis sur une chaise devant un bureau, qui utilisait un ordinateur tout en disant à un autre chien se tenant assis au sol à côté de lui : « Sur l'Internet, personne ne sait que tu es un chien (1) ».

Droit public

Le droit public se définit comme la branche du droit s'intéressant au fonctionnement et à l’organisation de l’Etat (droit constitutionnel notamment), de l’administration (droit administratif), des personnes morales de droit public mais aussi, aux rapports entretenus entre ces derniers et les personnes privées.

Découvrir tous les contenus liés

Nous en étions alors aux débuts de l’utilisation d’Internet par le grand public. Mais très rapidement est apparu le besoin de pouvoir distinguer qui (ou quoi) se « cachait » derrière un internaute : s’agissait-il d’un humain ou bien d’un programme ? C’est en 2000 qu’a été publiée pour la première fois la notion de CAPTCHA (2) (Completely Automated Public Turing test to tell Computers and Humans Apart, soit « Test public de Turing complètement automatique ayant pour but de différencier les humains des ordinateurs »).  L’un des premiers utilisateurs fut Yahoo! qui protégeait ainsi son téléservice permettant à un internaute de se créer une adresse email – fonctionnalité mise à profit par les spammeurs pour se créer des comptes de messageries afin de déverser leurs pourriels. Cette protection évite également aux sites web d'être victimes d'une attaque de type DoS (Denial of Service) ou à une base de données de se faire aspirer. Pour prouver qu’il est bien un humain, l’internaute était invité à saisir des caractères d'apparence déformée, nul programme n’étant censé à l’époque pouvoir réussir cette prouesse.

La traditionnelle course entre l’épée et la cuirasse

C’était compter sans l’inventivité des spammeurs. Dans un premier temps, certains ont engagé des humains pour passer ces tests. D'autres ont fait saisir les caractères brouillés par des internautes désireux d’accéder à des images pornographiques (il leur suffisait de répliquer dans une fenêtre de leur site web le Captcha imposé par le site légitime). Mais les avancées récentes en intelligence artificielle permettent depuis quelques années à un programme de réussir le test pratiquement aussi bien qu’un humain (3). Les webmasters ont alors cherché à « durcir » leur Captcha, c’est-à-dire à brouiller davantage les caractères… ce qui a pour effet de rendre leur lecture plus difficile pour les internautes. Les tests d’ancienne génération sont reconnus aujourd’hui peu efficaces et générateurs d’inconfort pour les internautes.

Aussi, il n’est pas étonnant qu’un grand nombre de sites Web affichent une nouvelle génération de Captcha, celle que leur met gratuitement à disposition Google, le reCAPTCHA (4). Développée par des chercheurs de la Carnegie Mellon School of Computer Science de l'université Carnegie-Mellon à Pittsburgh, cette solution a été achetée par Google en 2009. Dans sa forme actuelle la plus fréquente, elle se présente en deux étapes. La première affiche un simple message « Je ne suis pas un robot », associé à une case que doit cocher l’internaute. Si l’intelligence artificielle Google se satisfait de la réponse, l’internaute accède à la page convoitée. Dans le cas contraire, un défi lui est lancé : neuf vignettes apparaissent (elles peuvent être différentes comme composer une seule grande image) avec une légende l’invitant – par exemple – à cliquer sur toutes celles qui montrent une vitrine de magasin, un panneau indicateur ou une surface liquide. Après avoir cliqué sur les quelques images répondant à ce critère, le test est réussi et l’internaute accède enfin à la page visée.

Informés de l’adage « Si c’est gratuit, c’est toi le produit », c’est sans surprise que l’on apprend que la mise à disposition gracieuse par Google de ce dispositif n’est pas sans contreparties. La Privacy Policy for reCaptcha (combien de webmasters l’ont lue ou ont consulté leur Délégué à la protection des données avant d’installer le dispositif sur leur site Web ?) indique que des données personnelles sont collectées et transférées aux USA : l'URL du site Web visité, l'identifiant de l'image, tous les cookies placés par Google ces six derniers mois, l'horodatage et l'adresse IP de l'internaute, la langue du navigateur, tous les plug-ins installés sur ce navigateur. La liste n’est pas exhaustive (Google indique bien « voici quelques données utilisateurs qui sont collectées »)… et l’on frémit en découvrant que Google récupèrerait également une copie intégrale du navigateur (5) (« a complete snapshot of the user’s browser window is captured ») !

Si cela est exact, et comme le reCAPTCHA est souvent installé sur des pages d’identification/authentification, Google doit avoir à ce jour collecté plusieurs centaines de millions d’identifiants… donc des données directement personnelles. Que deviennent toutes ces informations ? La Privacy Policy est muette sur ce point. Pour tous les internautes qui utilisent régulièrement les services Google (compte Google, adresse Gmail, etc.) ou équipés d’un navigateur Chrome, le traitement est clairement identifiant et non pas anonyme, comme certains webmasters aimeraient s’en persuader.

Quid des cookies ? Parmi les critères retenus par Google pour déterminer si l’utilisateur est un humain (et éviter de lui afficher les neuf vignettes) figure la recherche d’un cookie spécifique, inscrit par le géant américain à l’occasion d’un test précédent. Cela signifie que les navigateurs étant équipés de plug-ins destinés à protéger la vie privée des internautes ou étant régulièrement purgés de leurs cookies se voient systématiquement suspectés d’être pilotés par des programmes.

Conformité au RGPD et à la directive e-Privacy ?

Comme nous venons de le voir, ce dispositif se traduit par un traitement de données à caractère personnel (et un flux transfrontières effectué dans le cadre de l’accord Privacy Shield) et l’application d’un cookie. En conséquence, le RGPD et la directive e-Privacy s’imposent à l’éditeur du site Web (Google n’étant que sous-traitant, au sens de l’article 4.8 du RGPD.

Remarque : le reCAPTCHA ne figure pas dans la liste des services pour lesquels la société américaine se reconnaît co-responsable de traitement (6). Pour les sites web concernés, l’urgence est donc d’enrichir leur « information cookie » de la description du marqueur correspondant au reCAPTCHA (le NID, d’une durée de vie de six mois).

Par rapport au RGPD, l’éditeur du site web – en sa qualité de responsable du traitement – a pour première obligation d’informer les personnes concernées (les internautes). C’est d’ailleurs l’un des points sur lequel Google insiste dans sa Policy Privacy. Qui a déjà noté, sur un site web, une mention avertissant l’internaute que sa tentative pour prouver qu’il est un humain va se traduire par un transfert de ses données personnelles en dehors de l’Union européenne ? Pour quelles finalités sont-elles transférées ? Que va faire Google de ces données ? Combien de temps vont-elles être conservées ? Si techniquement on peut imaginer que cette information peut être signalée dans le bandeau cookie (pour les sites qui en sont pourvus), et dans la page « Informatique et Libertés », quel en sera son contenu ? « Afin de protéger notre site web, nous avons pris l’initiative d’y avoir installé un dispositif dont nous ne savons pratiquement rien… » ? À côté de la phrase « Je ne suis pas un robot » figure le logo associé au reCAPTCHA, trois flèches, grise, bleu clair et bleu soutenu, qui forment un cercle. Certes, en dessous de ce logo, deux mots (« Confidentialité » et « Conditions ») mènent aux Policies de Google, mais dans lesquelles il est très difficile de trouver la moindre information sur le traitement de données personnelles associé au dispositif.

Mais Google va plus loin dans sa Privacy Policy, et exige des webmasters qui installent son dispositif gratuit de veiller à recueillir le consentement des internautes si ceux-ci résident au sein de l’Union européenne. Or, le RGPD impose des critères stricts qui déterminent la qualité d’un consentement. Que l’internaute qui a déjà consenti en connaissance de cause à ce que l’image intégrale de son navigateur parte chez Google lève le doigt !

Quid du fondement d’un tel traitement, qui devrait figurer au registre tenu par le responsable du traitement au titre de l’article 30 du RGPD ? À part celui du consentement (art. 6.1.a du RGPD), ne peut s’envisager que celui de l’intérêt légitime du responsable du traitement (art. 6.1.f du RGPD). Mais, dans ce cas, un droit d’opposition devrait être clairement présenté à l’internaute. Or, en l’absence d’information, comment s’opposer ? Et la possibilité même de s’opposer vient en contradiction avec l’objectif visé par le dispositif (il ne faudrait pas que les robots, eux-aussi, puissent s’opposer au test…).

Remarque : dans le cadre des travaux que pilote l’auteur dans le cadre du Mastère Spécialisé « Informatique et Libertés » de l’ISEP, il n’a pas non plus été possible d’obtenir une réponse aux demandes de droit d’accès, exercé au titre de l’article 15 du RGPD auprès des éditeurs de sites Web arborant le dispositif, pour savoir avec précision quelles étaient les données personnelles traitées par le reCAPTCHA.
L’exemple parfait du « Digital Labour »

Avez-vous remarqué que, certaines fois, ce ne sont pas quelques vignettes qu’il nous faut reconnaître, mais un nombre anormalement élevé avant d’être autorisé à poursuivre la visite du site Web équipé d’un reCAPTCHA ? Deux hypothèses : soit l’Intelligence artificielle de Google est peu performante, soit cela est voulu. Et c’est sans surprise que l’on apprend que les millions d’internautes qui, chaque jour, « passent » le test travaillent en fait gratuitement pour l’entreprise américaine. C’est là un exemple parfait de Digital Labour, Google faisant travailler gratuitement les internautes avec la complicité des entreprises qui ont installé le reCAPTCHA sur leur site Web.

Pire : c’est à l’occasion de la publication d’une lettre ouverte signée par plusieurs milliers de salariés du géant américain que nous avons appris qu’une partie de ce travail gratuit servait à améliorer les technologies embarquées dans les drones de l’armée américaine utilisés sur des zones de guerre (7). Face à cette fronde, la direction de Google a décidé de ne pas reconduire le « projet Maven », programme de recherche du Pentagone qui se base sur l'intelligence artificielle pour interpréter des images.

Comment un responsable du traitement peut-il formuler cela dans sa mention d’information ? Dans ces conditions, il est surprenant de voir que des sites institutionnels arborent le reCAPTCHA.  Ils sont à la merci de se retrouver dans la position de la Dgfip  qui, en avril 2018, avait été contrainte de faire rapidement machine arrière à la suite d’un article du magazine Le Point intitulé « Le site internet des impôts offre à Google des données de millions de Français (8) ». En obligeant à regarder une vidéo informative hébergée sur YouTube (propriété de Google) avant de déclarer ses revenus en ligne, Bercy permettait au géant américain de récupérer des informations sur les assujettis sans que ceux-ci en soient informés et sans qu’ils puissent s’y opposer.

Désormais invisible, mais tout aussi intrusif

Début 2017, Google a lancé une nouvelle version du reCAPTCHA, qui est depuis proposée également en version « invisible ». Basé sur une intelligence artificielle, le reCAPTCHA invisible fonctionne en arrière-plan et se passe totalement de la participation de l’utilisateur pour décider de son humanité. C’est seulement si un doute persiste que le reCAPTCHA apparaît et demande une action à l’utilisateur du site.

Sans surprise, l’annonce de cette nouvelle version n’a pas été accompagnée de beaucoup de détails sur son fonctionnement, de peur de donner de précieuses indications aux fournisseurs de bots (9). On sait juste qu’il s’agit d’une « combinaison de machine learning et d’une analyse de risque avancée qui s’adapte aux nouvelles menaces ». Cela signifie, pour un responsable du traitement qui veut se conformer au RGPD et à la loi Informatique et libertés, qu’il lui faut en sus respecter le cadre nouveau régulant les DIA (10) (Décisions Individuelles Automatiques) et être en mesure, par exemple, d’expliquer à une personne concernée pourquoi elle n’a pas été correctement identifiée comme un être humain. Mais comment fournir cette information ?

La version invisible semble aussi poser des problèmes aux internautes qui ont équipé leur navigateur d’un plug-in de protection de la vie privée. Celui-ci gênant le passage du test, les internautes désireux de remplir et valider un formulaire protégé par ce dispositif se voient afficher un texte « Test Captcha non valide » alors qu’ils ne voient aucun Captcha sur la page… (en réalité, la présence du reCAPTCHA invisible est seulement signalée par le petit logo figurant les trois flèches en cercle).

Comment protéger son site Web et respecter le RGPD ?

L’ensemble des éléments listés jusqu’alors montrent qu’il est difficile pour un responsable du traitement de mettre en œuvre le dispositif sur l’un de ses sites Web tout en respectant le RGPD, sans compter que sa présence peut être facilement relevée par la CNIL dans le cadre de ses contrôles à distance (les experts de la Commission sont en mesure de détecter la présence du reCAPTCHA dans sa version invisible grâce au cookie spécifique qu’il laisse).

Il existe pourtant des alternatives, qu’il convient d’étudier pour éviter à la fois les Captcha textes, « traditionnels », qui n’apportent plus la protection attendue (11), et le reCAPTCHA de Google :

- le Puzzle CAPTCHA (12) présente une image dans laquelle manque une pièce, découpée « façon puzzle ». La pièce figure à côté de l’image et l’internaute doit la glisser, avec sa souris, jusqu’à son emplacement, pour compléter l’image ;

- le Confident Captcha (13) présente à l'utilisateur plusieurs images hétérogènes et demande à l’internaute de cliquer successivement sur quelques-unes d’entre elles, mais dans un ordre donné : d’abord la maison, puis l'arbre et l’avion et enfin le chat. C’est ce test qu’affiche actuellement Orange (14) ;

- le « Captcha Ludique » demande de déplacer le bon objet dans le contexte qui lui correspond pour finaliser une procédure web (par exemple « Placer tous les objets qui ne volent pas au sol », et propose une tondeuse à gazon, une enclume, un cerf-volant et un hélicoptère) ;

- PlayThru propose de se préparer un hamburger et permet à l’internaute de glisser entre deux tranches de pain de la viande, une feuille de salade, une tranche de tomate, mais aussi une scie à métaux et un boulon. Un autre test affiche deux colonnes. Dans la première figure une liste de villes (Poitiers, Lille, Paris, Strasbourg). À la question « Quelle est la capitale de la France ? », l'internaute doit faire glisser sa réponse dans la colonne de droite ;

- le « Captcha Questionneur » présente quelques photos d’un ciel chargé de nuages et vous demande quel temps fait-il (en vous proposant quelques suggestions, comme « Superbe » ou « Menaçant ») ;

- le Captcha Mathématique appartient à la famille des « Captcha test de compétences », genre de test assez pointu qui peut s’avérer adapté sur un site qui s’adresse à une population très ciblée : il est demandé à l’internaute de résoudre une opération mathématique (15), de reconnaître une formule chimique ou de distinguer un composant électronique ;

- pour réussir le test Captch Me (16), l’internaute doit interagir avec la publicité, sous forme de jeu par exemple.

- il est également possible de se créer son propre test, comme l’a fait l’Urssaf pour protéger la création en ligne de comptes CESU (17) (Chèque Emploi Service Universel) : six symboles sont affichés et il est demandé de cliquer sur celui qui représente, par exemple, un extincteur ;

- NuCaptcha (18), développé par une entreprise canadienne, affiche de courtes vidéos dans lesquelles est affiché le texte qu’il faut saisir ;

- les Captcha audio sont moins fréquents : le site web propose à l’internaute d’écouter un extrait sonore dans lequel une voix énonce des chiffres au milieu d'un bruit de fond ambiant, qu’il faut saisir dans un champ texte.

L’étude afin de sélectionner une solution alternative au captcha de Google doit prendre en compte plusieurs critères, dont bien sûr le niveau de protection qu’elle apporte (ainsi, les captcha de type mathématique ou à base de questions sont parfois trop faciles à contourner avec des outils de type deathbycaptcha ou bypass catpcha), leur ergonomie (dont l’existence d’une version pour les personnes malvoyantes), leurs éventuels effets de bord (sont-ils acceptés par tous types de navigateurs ?), leur coût et les éléments qui vont permettre d’assurer la conformité du traitement au regard du RGPD et de la directive e-Privacy : quelles sont les données personnelles traitées ? Que deviennent-elles ? Où sont-elles traitées ? Combien de temps sont-elles conservées ? Des cookies sont-ils mis en œuvre ? etc.

L’idéal ne serait-il pas que Framasoft (19), association consacrée au logiciel libre qui a lancé en 2014 sa  campagne « Dégooglisons Internet », propose prochainement un Captcha gratuit, performant et respectueux du droit des personnes ?  Dans cette attente, les Délégués à la protection des données, désignés auprès de la CNIL au titre du RGPD, peuvent se pencher sur les sites web publiés par leur responsable du traitement afin de sécuriser juridiquement l’utilisation du Captcha qui s’y trouve peut-être.

 

L’auteur : Délégué général de l’AFCDP, Chef de projet Informatique et Libertés dans l’une des branches de la sécurité sociale, co- auteur des livre Halte au Spam (Eyrolles, 2003), Correspondant Informatique et Libertés : bien plus qu’un métier  (AFCDP, 2015), Droit à l’oubli (Larcier, 2015) et Protection des données personnelles - Se mettre en conformité pour le 25 mai 2018 (Editions législatives, 2017), Bruno Rasle forme les CIL et les DPO depuis 2007 dans le cadre du Mastère spécialisé « Informatique et Libertés » de l’ISEP et a créé un « Kit de survie Technique pour DPO, avocats et juristes ». Les propos tenus dans cet article sont ceux de l’auteur et ne représentent en rien les positions de l’AFCDP.

 


(1) En février 2015, Kaamran Hafeez a publié dans le New Yorker un dessin qui représente la même paire de chiens, avec l'un deux demandant à l'autre : « Tu te souviens quand, sur l'Internet, personne ne savait qui tu étais ? »
(2) Ce terme est une marque déposée par l'université Carnegie-Mellon.
(3) Voir, par exemple, l’étude A generative vision model that train with high data efficienty and breaks text-bases CAPTCHAs, paru dans la revue Science en décembre 2017
(4) https://developers.google.com/recaptcha/
(5) https://termsfeed.com/blog/privacy-policy-recaptcha/
(6) https://privacy.google.com/businesses/adsservices/
(7) « Le mystérieux projet Maven divise Google », par Nicolas Rauline, Les Echos.fr du 5 avril 2018
(8) www.lepoint.fr/high-tech-internet/le-site-des-impots-offre-a-google-des-donnees-de-millions-de-francais-17-04-2018-2211210_47.php
(9) Contraction du mot « robot », un bot informatique est un agent logiciel automatique.
(10) article 22 du RGPD et l'article 10 de la loi Informatique et Libertés modifiée le 20 juin 2018 encadrent les processus de prise de décision entièrement automatisés, lorsqu’elles produisent des effets juridiques ou des effets significatifs sur les personnes concernées.
(11) Toutefois, certaines implémentations de BotDetect (https://captcha.com) semblent encore apporter un niveau de protection acceptable.
(12) https://www.capy.me/products/puzzle_captcha/ ou https://www.keycaptcha.com/ (On notera que les CGU de cette solution indiquent que le service est régi par les lois … de la République des Seychelles)
(13) http://confidenttechnologies.com/confident-captcha/
(14) https://assistance.orange.fr/assistance-commerciale/l-identification/gerer-vos-comptes-orange/creer-un-compte-orange_65064-65848
(15) Comme sur le site web du Clusif, association qui regroupe des RSSI : https://clusif.fr/contact-2/
(16) http://www.captchme.com/
(17) https://www.cesu.urssaf.fr/decla/index.html?page=page_adhesion_futur_employeur&LANG=FR
(18) https://en.wikipedia.org/wiki/NuCaptcha
(19) https://framasoft.org/fr
Bruno Rasle, Délégué général de l'AFCDP
Vous aimerez aussi

Nos engagements