Chapitre 30 Identités contextuelles

L’un des présupposés de ce guide est le désir que nos faits, gestes et pensées ne soient pas automatiquement, voire pas du tout, reliés à notre identité civile.

Pour autant, il peut être nécessaire ou simplement préférable de savoir à qui on s’adresse : pour entamer une discussion sur un forum ou envoyer des emails par exemple. Dans ces cas-là, avoir une identité, c’est-à-dire être identifiable par notre correspondant, simplifie la communication.

30.1 Définitions

Pour commencer, deux définitions :

l’anonymat, c’est ne pas laisser apparaître de nom ;
le pseudonymat, c’est choisir et utiliser un nom différent de son identité civile.

De par son fonctionnement, il est très difficile d’être anonyme ou de rester un pseudonyme sur Internet.

30.1.1 Pseudos

Un pseudo, c’est une identité qui n’est pas celle assignée à une personne par l’état civil. On peut choisir de se faire appeler « Falaise », « Amazone enragée », « Zigouigoui », ou même « Jeanne Dupont ». En conservant un même pseudonyme lors de différents échanges, nos interlocutrices auront de bonnes chances de penser que les divers messages écrits par ce pseudo viennent de la même personne : ils pourront alors nous répondre, mais ne pourront pas venir nous casser la gueule en cas de désaccord.

Il faut néanmoins être conscient lors du choix d’un pseudonyme que celui-ci peut en lui-même être un indice qui permet de remonter à la personne qui l’utilise, au moins pour les personnes qui connaissent déjà ce pseudonyme par ailleurs.

30.1.2 Identité contextuelle

Bea télécharge aussitôt le document et l’ouvre dans l’éditeur de texte. Elle le parcourt rapidement, et supprime quelques informations qu’il vaut mieux ne pas laisser. Après avoir entré son identifiant et son mot de passe pour se connecter au blog, Bea copie-colle le contenu du document depuis sa boîte mail, et clique sur Envoyer. « Espérons que cela inspire d’autres personnes !

En reprenant le fil de notre histoire introductive, l’identité contextuelle correspondrait à « une ou plusieurs personnes publiant des informations sur la mairesse », et la personne physique à Bea.

Que l’on discute avec des personnes avec qui on partage la passion de l’escalade, ou de notre projet professionnel avec une conseillère Pôle emploi ou encore avec notre banquière, la teneur des propos, la manière dont on en parle n’est pas la même. D’un côté on sera plutôt exaltée, aventureuse, de l’autre plutôt sobre, sérieuse, etc. : on peut donc parler d’identité contextuelle.

Il en va de même lors de l’utilisation d’un ordinateur : quand on poste un message sur un forum de rencontre, quand on annonce une grosse soirée sur son compte Facebook ou quand on répond à un email de papa, on fait appel à différentes identités contextuelles. Celles-ci peuvent bien évidemment être mélangées et donc rejoindre une même identité composée des trois identités contextuelles mobilisées ci-dessus, la célibataire, la fêtarde, la fille de.

Une identité contextuelle est donc un fragment d’une « identité » globale censée correspondre à une personne physique, ou à un groupe. Tout comme une photographie est un instantané d’une personne ou d’un groupe, sous un certain angle, à un certain âge, etc.

Être absolument anonyme sur Internet, c’est très compliqué : comme on l’a vu, de nombreuses traces sont enregistrées via le réseau lors de son utilisation. Ce phénomène est d’autant plus vrai avec les médias sociaux pour lesquels la génération d’une identité unique et traçable est un fonds de commerce³⁷². Il est impossible de ne laisser aucune trace, mais il est peut-être possible de laisser des traces qui ne ramènent nulle part.

On rencontre des difficultés similaires lorsqu’on fait le choix du pseudonymat : plus on utilise un pseudo, plus les traces qu’on laisse s’accumulent. Des petits indices qui, une fois recoupés, peuvent permettre de révéler l’identité civile qui correspond à un pseudonyme.

30.2 De l’identité contextuelle à l’identité civile

Il existe différentes manières, plus ou moins offensives, de mettre à mal un pseudonyme ou de révéler le lien entre une identité contextuelle et la ou les personnes physiques qui l’utilisent.

30.2.1 Le recoupement

En partant de l’exemple des trois identités contextuelles, il est légitime de se demander ce que jongler entre ces différentes identités implique en termes d’anonymat. En imaginant qu’on utilise un pseudonyme et non son identité civile, il peut être plus pertinent d’avoir une identité, donc un pseudo, dans chaque contexte : une pour les sites de rencontres, une autre pour les médias sociaux, et une pour les relations familiales, etc., afin d’éviter les recoupements. Si les informations émanant des dites identités ne sont pas compartimentées, c’est-à-dire si un même pseudo est utilisé, leur recoupement permet de réduire le nombre de personnes à qui elles peuvent correspondre. Il devient alors plus facile de faire le lien entre une présence numérique et une personne physique, et donc de mettre un nom sur l’identité contextuelle correspondante.

Considérons par exemple une personne qui utilise le pseudonyme bruise76 sur un blog où elle dit être végétarienne et aimer les films d’action. Il n’existe qu’un certain nombre de personnes correspondant à ces critères. Ajoutons à cela le fait que ce même pseudonyme est utilisé pour organiser une fiesta dans telle ville via un média social et pour communiquer par mail avec Mme Unetelle. Il n’y a sans doute pas beaucoup de personnes végétariennes, aimant les films d’actions, organisant une fête dans cette même ville et communiquant par email avec Mme Unetelle.

Plus les utilisations d’un pseudonyme par la même personne sont nombreuses et variées, plus le nombre de personnes pouvant correspondre à ce pseudonyme est restreint. Ainsi en recoupant les utilisations d’un même pseudonyme il est possible d’affaiblir voire de casser le pseudonymat.

Voici un exemple qui montre la faiblesse du pseudonymat : AOL a publié le résultat de 3 mois de requêtes soumises à son moteur de recherche. Les requêtes d’une même personne étaient associées à un même pseudonyme. En faisant du recoupement, il était possible de briser le peudonymat associé aux requêtes³⁷³.

De même, le gouverneur de l’État du Massachusetts a lui aussi fait les frais de ces recoupements lorsque son dossier médical, soit-disant anonymisé, a pu être identifié parmi ceux de toutes les citoyennes de cet État. Le chercheur ayant effectué cette démonstration de désanonymisation de données poussa l’ironie jusqu’à lui envoyer son dossier médical par la poste³⁷⁴.

30.2.2 Corrélation temporelle

Procédé un peu plus technique cette fois-ci, la corrélation temporelle permet également de briser ou d’affaiblir un peu plus l’anonymat ou le pseudonymat. En effet, si dans un intervalle de temps réduit, il y a connexion vers la boîte mail amazone@exemple.org ainsi que jeanne.dupont@courriel.fr, la probabilité que ces deux adresses mail soient aux mains de la même personne augmente, et ce d’autant plus si cette observation se répète. Diverses parades, répondant à des besoins divers, seront explicitées plus loin.

30.2.3 Stylométrie

Il est possible d’appliquer des analyses statistiques sur la forme de n’importe quel type de données, et notamment aux textes. En analysant³⁷⁵ différentes caractéristiques d’un texte, comme la fréquence des mots-outils³⁷⁶, la longueur des mots, des phrases et des paragraphes, la fréquence des signes de ponctuation, on peut corréler des textes anonymes avec d’autres textes, et en retirer des indices sur leurs autrices.

Ce type d’analyse fut par exemple utilisé lors du procès de Theodore Kaczynski ³⁷⁷ pour accréditer le fait qu’il soit l’auteur du manifeste « La société industrielle et son avenir »³⁷⁸.

Les autrices d’une étude récente³⁷⁹ ont cherché à « simuler une tentative d’identification de l’autrice d’un blog publié de manière anonyme. Si l’autrice est suffisamment prudente pour éviter de révéler son adresse IP ou tout autre identifiant explicite, son adversaire (par exemple un censeur gouvernemental) peut se pencher sur l’analyse de son style d’écriture ». Leurs conclusions montrent que la stylométrie permet de réduire fortement, parmi de très nombreuses possibilités, le nombre d’autrices possibles d’un texte anonyme — la précision augmentant évidemment avec le nombre d’échantillons « signés », c’est-à-dire dont l’autrice est connue, fournis au logiciel d’analyse.

Le plus souvent, cela leur permet de réduire la taille de l’ensemble des autrices possibles de 100 à 200 sur 100 000 initialement. « […] ajouté à une autre source d’information, cela peut être suffisant pour faire la différence entre l’anonymat et l’identification d’une autrice ». À l’heure où sont écrites ces lignes, il est même possible dans 20 % des cas d’identifier directement l’autrice anonyme.

La particularité de ce travail est qu’il dépasse le cadre de petits échantillons (une centaine de possibilités) auxquels s’étaient cantonnées les études précédentes, pour s’intéresser à l’identification de l’autrice parmi un très grand nombre de possibilités ; en d’autres termes, il démontre que la stylométrie peut être employée pour confirmer l’origine d’un texte sur la base d’un très grand nombre d’échantillons.

Cependant, écrire en essayant de masquer son style, sans expertise particulière, semble permettre de rendre inefficaces les analyses stylométriques. Imiter le style de quelqu’une d’autre permet même de les tromper dans plus de la moitié des cas³⁸⁰.

D’autres chercheuses développent des logiciels qui suggèrent les modifications à effectuer pour anonymiser un texte³⁸¹.

30.3 La compartimentation

Comme on vient de le voir, de nombreuses possibilités d’attaques permettent de faire correspondre une identité civile et une identité contextuelle. L’utilisation d’un seul et même nom pour ses différentes activités est sans doute la pratique la plus à même de nous confondre.

Face à cela, il est donc important de bien réfléchir à l’usage que l’on a de ses pseudonymes. Il est souvent dangereux de mélanger plusieurs identités contextuelles sous un même pseudo. La meilleure prévention reste de les séparer clairement dès le départ afin de limiter les ennuis par la suite. Après tout, une pratique ou une identité qui peut être utilisée à un moment donné peut d’un coup se transformer en source de problèmes en raison de conditions extérieures qu’il n’est pas forcément possible d’anticiper ou de maîtriser.

Cependant, ces pratiques ne sont pas toujours faciles à mettre en place. Car en plus des techniques décrites précédemment, la séparation entre ces différentes identités contextuelles dépend de beaucoup d’autres paramètres. Notamment des relations que l’on établit avec d’autres personnes, que ces relations soient numériques ou non. Il n’est pas forcément facile d’avoir une identité contextuelle différente pour absolument chacune des facettes de sa personnalité ou chacune de ses activités, ni d’éviter que certaines d’entre elles ne se recoupent. Ces identités évoluent au gré des activités qu’on leur attribue et au fil du temps. Plus longtemps on les utilise, plus leur séparation a tendance à s’amenuiser. Il est donc souvent difficile d’équilibrer et de mesurer les efforts nécessaires à la mise en place des multiples identités contextuelles avec les bénéfices escomptés. D’autant plus qu’il est généralement compliqué de faire marche arrière dans ce domaine.

Certains outils tels les médias sociaux les rendent même quasiment impraticables en imposant une transparence absolue.

30.4 Les médias sociaux : centralisation de fonctions et identité unique

Les médias sociaux tendent en effet à centraliser des fonctions qui étaient auparavant assurées par différents outils, de l’échange de messages à la publication de nouvelles, en passant par les groupes de discussion. Ils tendent à se substituer à la fois à l’email, à la messagerie instantanée, aux blogs ainsi qu’aux forums.

Dans le même temps se développent de nouvelles fonctions, comme une certaine vie relationnelle numérique où l’existence d’une communication prime sur son contenu, poussée à son paroxysme avec les « pokes », ces messages sans contenu³⁸². Le web 2.0 encourage l’expression sur des sujets qui étaient auparavant considérés comme intimes³⁸³.

Finalement, pas grand-chose de bien nouveau, si ce n’est la centralisation de nombreuses fonctions et de pratiques variées vers un outil unique. C’est d’ailleurs le côté « tout-en-un » de ces plateformes, le graphisme ainsi que la facilité d’usage qui en font le succès. Mais cette centralisation pose question quant aux conséquences de l’utilisation de ces outils sur nos intimités.

La pression sociale pour utiliser les médias sociaux est très forte dans certains milieux : lorsque des groupes les utilisent pour la majorité de leurs communications, des messages interpersonnels aux invitations en passant par la publication d’informations, ne pas participer aux médias sociaux, c’est être marginalisée. Le succès de ces sites repose sur « l’effet de réseau » : plus il y a de personnes qui les utilisent, plus il est important d’y être présente.

Mais dans le même temps, ces médias sociaux permettent aussi de s’évader de ces pressions de groupes et d’assumer ou d’expérimenter plus facilement certaines parts de sa personnalité qui ne sont pas forcément tolérées par ces groupes.

La centralisation de toutes les activités sur une seule plateforme rend extrêmement difficile l’usage de pseudonymes différents pour différentes identités contextuelles. En effet, en mettant toutes les informations au même endroit, le risque de recoupement de différentes identités contextuelles est maximisé. Nombre de médias sociaux demandent une identité unique, celle correspondant à l’identité civile d’une personne physique. C’est là une différence clé par rapport à un modèle où un individu peut avoir plusieurs blogs avec des tons et des contenus différents, chacun sous un pseudonyme différent. De plus, à l’instar des sites de rencontres, où plus on est honnête, meilleurs sont les résultats, ici plus on fournit du contenu, plus on utilise cette plateforme, meilleures sont les interactions.

Ceci est d’autant plus vrai qu’utiliser son identité civile fait partie des règles de réseaux comme Facebook, qui met en place différents mécanismes pour traquer les pseudonymes³⁸⁴. Ces entreprises poussent jusqu’au bout le business model de la publicité ciblée et de la vente de profils : elles « mettent en place différents procédés techniques de captation de l’identité des usagères, depuis l’identité fondée sur leurs déclarations, jusqu’à l’identité agissante³⁸⁵ et l’identité calculée fondée sur l’analyse de leurs comportements (sites visités, nombre de messages, etc.). Il apparaît que l’anonymat total devient impossible dans un univers virtuel où les usagers sont avant tout des consommateurs qu’il s’agit d’observer. »³⁸⁶

Ainsi, en juillet 2011, Max Schrems a réussi à obtenir l’ensemble des données dont Facebook dispose sur lui en invoquant une directive européenne. Le dossier qu’il a reçu comprend 1222 pages³⁸⁷, qui incluent non seulement l’ensemble des informations disponibles sur son profil, mais aussi tous les évènement auxquels il a été invité (y compris les invitations déclinées), tous les messages envoyés ou reçus (y compris les messages supprimés), toutes les photos chargées sur Facebook accompagnées de métadonnées concernant notamment la géolocalisation, tous les « pokes » émis ou reçus, toutes les « amies » (y compris les « amies » effacées), les journaux de connexions à Facebook (incluant l’adresse IP et sa géolocalisation), toutes les « machines » (identifiées par un cookie) utilisées par un profil, ainsi que les autres profils utilisant les mêmes « machines » ou encore la localisation de sa dernière connexion connue à Facebook (longitude, latitude, altitude).

Enfin, malgré les déclarations du fondateur de Facebook, comme quoi l’ère de la vie privée est révolue³⁸⁸, nombre de stratégies restent à développer, à remanier, afin de jouer avec les différentes marges encore d’actualité. Et ceci dans l’optique d’avoir un peu de prise sur ces questions fondamentales : « Qu’est-ce que l’on souhaite montrer ? », « Qu’est-ce que l’on accepte de rendre visible ? » et « Qu’est-ce que l’on veut cacher et à quel prix ? ».

Ippolita, 2012, J’aime pas Facebook.↩︎
Nate Anderson, 2006, AOL releases search data on 500,000 users (en anglais).↩︎
Paul Ohn, 2009, Broken Promises of Privacy: Responding to the Surprising Failure of Anonymization (en anglais).↩︎
Par exemple grâce à des logiciels comme The Signature Stylometric System ou Java Graphical Authorship Attribution Program (liens en anglais).↩︎
Les mot-outils sont des mots dont le rôle syntaxique est plus important que le sens. Il s’agit typiquement de mots de liaison.↩︎
Kathy Bailey, 2008, Forensic Linguistics in Criminal Cases, Language in Social Contexts (en anglais).↩︎
Theodore Kaczynski, 1998, La société industrielle et son avenir.↩︎
Hristo Paskov, Neil Gong, John Bethencourt, Emil Stefanov, Richard Shin, Dawn Song, 2012, On the Feasibility of Internet-Scale Author Identification (en anglais).↩︎
M. Brennan, R. Greenstadt, 2009, Practical attacks against authorship recognition techniques, dans Proceedings of the Twenty-First Innovative Applications of Artificial Intelligence Conference (en anglais).↩︎
Andrew W.E. McDonald, Sadia Afroz, Aylin Caliskan, Ariel Stolerman, Rachel Greenstadt, 2012, Use Fewer Instances of the Letter “i”: Toward Writing Style Anonymization, The 12th Privacy Enhancing Technologies Symposium (en anglais).↩︎
Fanny Georges, 2008, Les composantes de l’identité dans le web 2.0, une étude sémiotique et statistique, Communication au 76^ème congrès de l’ACFAS : Web participatif : mutation de la communication ?, Québec, Canada.↩︎
Alain Rallet et Fabrice Rochelandet, 2010, La régulation des données personnelles face au web relationnel : une voie sans issue ?, Réseaux numéro 167, Données personnelles et vie privée.↩︎
Nikopik, 2012, Facebook et la délation.↩︎
L’« identité agissante » désigne les messages qui apparaissent automatiquement sur la page d’une personne sur le média social et qui détaillent son activité sur la plateforme. Ces messages ne rendent donc pas compte de ce que dit la personne sur le site, mais de ce qu’elle y fait. Par exemple, « Ana a modifié sa photo de profil » ou « Ana est désormais amie avec Betty ». Fanny Georges, Antoine Seilles, Jean Sallantin, 2010, Des illusions de l’anonymat – Les stratégies de préservation des données personnelles à l’épreuve du Web 2.0, Terminal numéro 105, Technologies et usages de l’anonymat à l’heure d’Internet.↩︎
Chantal Enguehard, Robert Panico, 2010, Approches sociologiques, Terminal numéro 105, Technologies et usages de l’anonymat à l’heure d’Internet.↩︎
Damien Leloup, 2012, Max Schrems : “L’important, c’est que Facebook respecte la loi”, Le Monde.↩︎
Bobbie Johnson, 2010, Privacy no longer a social norm, says Facebook founder (en anglais).↩︎