Guide d'autodéfense numérique

Il existe différentes manières, plus ou moins offensives, de mettre à mal un pseudonyme ou de révéler le lien entre une identité contextuelle et la ou les personnes physiques qui l'utilisent.

Le recoupement

En partant de l'exemple des trois identités contextuelles, il est légitime de se demander ce que jongler entre ces différentes identités implique en termes d'anonymat. En imaginant qu'on utilise un pseudonyme et non son état civil, il peut être plus pertinent d'avoir une identité, donc un pseudo, dans chaque contexte : une pour les sites de rencontres, une autre pour les médias sociaux, et une pour les relations familiales, etc. afin d'éviter les recoupements. Si les informations émanant des dites identités ne sont pas compartimentées, c'est-à-dire si un même pseudo est utilisé, leur recoupement permet de réduire le nombre de personnes à qui elles peuvent correspondre. Il devient alors plus facile de faire le lien entre une présence numérique et une personne physique, et donc de mettre un nom sur l'identité contextuelle correspondante.

Considérons par exemple un internaute qui utilise le pseudonyme bruce76 sur un blog où il dit être végétarien et aimer les films d'action. Il n'existe qu'un certain nombre de personnes correspondant à ces critères. Ajoutons à cela le fait que ce même pseudonyme est utilisé pour organiser une fiesta dans telle ville via un réseau social et pour communiquer par email avec Mme Unetelle. Il n'y a sans doute pas beaucoup de personnes végétariennes, aimant les films d'actions, organisant une fête dans cette même ville et communiquant par email avec Mme Unetelle.

Plus les utilisations d'un pseudonyme sont nombreuses et variées, plus le nombre de personnes pouvant correspondre à ce pseudonyme est restreint. Il est donc possible, en recoupant les utilisations d'un même pseudonyme par exemple, d'affaiblir voire de casser le pseudonymat.

C'est ce que nombre d'utilisateurs d'AOL découvrirent à leurs dépends lors de la publication de plus de trois mois de résultats d'utilisation du moteur de recherche de la firme1. Nombre de chercheurs purent facilement briser le faible pseudonymat appliqué par AOL sur ces données. Le gouverneur de l'état du Massachusetts a lui aussi fait les frais de ces recoupements lorsque son dossier médical, soit-disant anonymisé, a pu être identifié parmi ceux de tous les citoyens de cet état. La chercheuse ayant effectuée cette démonstration de désanonymisation de données poussa l'ironie jusqu'à lui envoyer son dossier médical par la poste2.

Corrélation temporelle

Procédé un peu plus technique cette fois-ci, la corrélation temporelle permet également de briser ou d'affaiblir un peu plus l'anonymat ou le pseudonymat. En effet, si dans un intervalle de temps réduit, il y a connexion vers la boîte mail amazone@exemple.org ainsi que jeanne.dupont@courriel.fr, la probabilité que ces deux adresses emails soient aux mains de la même personne augmente, et ce d'autant plus si cette observation se répète. Diverses parades, répondant à des besoins divers, seront explicitées plus loin.

Stylométrie

Il est possible d'appliquer des analyses statistiques sur la forme de n'importe quel type de données, et notamment aux textes. En analysant3 différentes caractéristiques d'un texte, comme la fréquence des mots-outils4, la longueur des mots, des phrases et des paragraphes, la fréquence des signes de ponctuation, on peut corréler des textes anonymes avec d'autres textes, et en retirer des indices sur leur auteur.

Ce type d'analyse fut par exemple utilisé lors du procès de Theodore Kaczynski 5 pour accréditer le fait qu’il soit l'auteur du manifeste « La société industrielle et son avenir »6.

Les auteurs d'une étude récente7 ont cherché à « simuler une tentative d'identification de l'auteur d'un blog publié de manière anonyme. Si l'auteur est suffisamment prudent pour éviter de révéler son adresse IP ou tout autre identifiant explicite, son adversaire (par exemple un censeur gouvernemental) peut se pencher sur l'analyse de son style d'écriture ». Leurs conclusions montrent que la stylométrie permet de réduire fortement, parmi de très nombreuses possibilités, le nombre d'auteurs possibles d'un texte anonyme – la précision augmentant évidemment avec le nombre d'échantillons « signés », c'est-à-dire dont l'auteur est connu, fournis au logiciel d'analyse.

Le plus souvent, cela leur permet de réduire la taille de l'ensemble des auteurs possibles de 100 à 200 sur 100 000 initialement. « [...] ajouté à une autre source d'information, cela peut être suffisant pour faire la différence entre l'anonymat et l'identification d'un auteur ». À l'heure où sont écrites ces lignes, il est même possible dans 20 % des cas d'identifier directement l'auteur anonyme.

La particularité de ce travail est qu'il dépasse le cadre de petits échantillons (une centaine de possibilités) auxquels s'étaient cantonnées les études précédentes, pour s'intéresser à l'identification de l'auteur parmi un très grand nombre de possibilités ; en d'autres termes, il démontre que la stylométrie peut être employée pour confirmer l'origine d'un texte sur la base d'un très grand nombre d'échantillons.

Cependant, écrire en essayant de masquer son style, sans expertise particulière, semble permettre de rendre inefficaces les analyses stylométriques. Imiter le style de quelqu'un d'autre permet même de les tromper dans plus de la moitié des cas8.

D'autres chercheurs développent des logiciels qui suggèrent les modifications à effectuer pour anonymiser un texte9.