Une nouvelle étude scientifique tire la sonnette d’alarme : les technologies derrière les plateformes comme ChatGPT facilitent désormais l’identification de comptes pourtant anonymes. En croisant des informations fragmentées publiées sur différentes plateformes, les modèles de langage (LLM) permettent de mener des attaques à la vie privée sophistiquées et peu coûteuses, forçant une remise en question fondamentale de la confidentialité en ligne.
Le croisement de données : l’arme fatale des modèles de langage
La recherche, menée par Simon Lermen et Daniel Paleka, démontre que l’intelligence artificielle est devenue capable de faire ce qui était autrefois fastidieux et complexe pour un humain : synthétiser des indices isolés pour reconstituer une identité. Dans leurs expérimentations, les chercheurs ont utilisé des IA pour « aspirer » les données de comptes anonymes. Par exemple, un utilisateur mentionnant ses difficultés scolaires et ses promenades avec son chien nommé « Biscuit » dans un parc spécifique peut être identifié avec un haut degré de confiance si ces mêmes détails apparaissent sur un profil public ailleurs.
Cette capacité de l’IA à « dé-anonymiser » les utilisateurs repose sur la cohérence des informations partagées. Comme le souligne la professeure Marti Hearst de l’université de Berkeley, l’IA excelle à lier les comptes lorsque quelqu’un partage de manière répétée les mêmes fragments de vie sur différentes plateformes. Ce qui semblait être des détails insignifiants devient, une fois traité par un LLM, une empreinte numérique unique.
Plus d infos sur Le Journal du Congo
Des menaces concrètes : surveillance et arnaques ultra-personnalisées
Les risques identifiés par l’étude dépassent le cadre de la simple curiosité. Les auteurs mettent en garde contre l’utilisation de ces outils par des gouvernements pour surveiller des dissidents ou des activistes opérant sous pseudonyme. Pour les cybercriminels, cette technologie abaisse radicalement la barre d’entrée pour des attaques de type « spear-phishing » (hameçonnage ciblé). En connaissant l’identité réelle et les habitudes d’une cible, un hacker peut élaborer des escroqueries d’une crédibilité redoutable, se faisant passer pour un proche ou un collègue.
Marc Juárez, maître de conférences en cybersécurité à l’université d’Édimbourg, souligne que le danger ne s’arrête pas aux réseaux sociaux. Les dossiers hospitaliers, les données d’admission scolaire et diverses publications statistiques, même anonymisées selon les standards actuels, pourraient ne plus suffire à protéger la vie privée face à la puissance de traitement des IA modernes.
Les limites technologiques et le risque d’erreur
Malgré cette puissance, l’intelligence artificielle n’est pas infaillible. Le professeur Peter Bentley de l’UCL (University College London) avertit que les modèles de langage commettent encore des erreurs de liaison. Le risque de voir des individus accusés à tort d’actes qu’ils n’ont pas commis est réel si ces outils sont utilisés sans supervision humaine stricte. De plus, lorsque les informations sont trop rares ou que le nombre de correspondances potentielles est trop élevé, l’IA atteint ses limites.
Cependant, l’inefficacité partielle de l’outil ne doit pas occulter l’urgence de la situation. Les experts appellent désormais les institutions et les particuliers à repenser radicalement leurs pratiques de partage de données.
Vers une nouvelle hygiène numérique
Face à cette menace, les chercheurs recommandent aux plateformes de restreindre l’accès aux données par des mesures techniques : limiter le taux de téléchargement des informations des utilisateurs, détecter le « scraping » (extraction automatisée) et restreindre les exportations massives de données.
Pour les utilisateurs, la solution passe par une prudence accrue. Chaque détail partagé en ligne, même sous couvert d’anonymat, peut devenir une pièce du puzzle que l’IA assemblera tôt ou tard. La protection de la vie privée à l’ère de l’intelligence artificielle ne dépendra plus seulement de l’anonymat de façade, mais de la fragmentation volontaire des informations que nous laissons derrière nous.



