[ad_1]

Imaginez découvrir une langue secrète parlée uniquement en ligne par quelques personnes bien informées et instruites. Sur une période de plusieurs semaines, alors que vous commencez à découvrir le sens de cette langue curieuse et à réfléchir à son objectif, la langue semble changer de manière subtile mais fantastique, se refaisant quotidiennement sous vos yeux. Et juste au moment où vous êtes sur le point de partager vos découvertes avec le reste du monde, tout disparaît.

loremipsumCela décrit assez mon expérience de montagnes russes de curiosité, d’émerveillement et de déception au cours des dernières semaines, alors que j’ai travaillé aux côtés de chercheurs en sécurité dans le but de comprendre comment « lorem ipsum” – texte d’espace réservé commun sur d’innombrables sites Web – pourrait être transformé en autant de phrases apparemment géopolitiques et étonnamment modernes lorsqu’il est traduit du latin à l’anglais en utilisant Google Traduction. (Si vous n’avez aucune idée de ce qu’est « lorem ipsum », passez directement à une brève introduction ici).

Certes, cet article de blog aurait plus de sens si les lecteurs pouvaient pleinement reproduire les résultats décrits ci-dessous en utilisant Google Traduction. Cependant, comme je l’expliquerai plus tard, quelque chose d’important a changé dans le système de traduction de Google à la fin de la semaine dernière, ce qui rend actuellement les exemples que je vais décrire impossibles à reproduire.

CHINE, OTAN, SEXY, SEXY

Tout a commencé il y a quelques mois lorsque j’ai reçu une note de Lance Jamesresponsable de la cyber intelligence chez Deloitte. James m’a envoyé un ping pour partager quelque chose découvert par FireEye chercheur Michel Shoukry et un autre chercheur qui souhaitait être identifié uniquement comme « Kraeh3n ». Ils ont remarqué un schéma bizarre dans Google Translate : lorsqu’on tapait « lorem ipsum » dans Google Translate, les résultats par défaut (le système détectant automatiquement le latin comme langue) renvoyaient un seul mot : « Chine ».

La mise en majuscule de la première lettre de chaque mot changeait la sortie en « OTAN » – l’acronyme de Organisation du Traité de l’Atlantique Nord. L’inversion des mots en minuscules et en majuscules a produit « L’Internet » et « La Société » (la « Société » avec un « C » majuscule a longtemps été un mot de code pour le Agence centrale de renseignement des États-Unis). Répéter et réorganiser la paire de mots avec un mélange de majuscules a généré des résultats encore plus étranges. Par exemple, « lorem ipsum ipsum ipsum Lorem » a généré la phrase « La Chine est très très sexy ».

Jusqu'à très récemment, les mots de gauche étaient transformés en mots de droite à l'aide de Google Translate.

Jusqu’à très récemment, les mots de gauche étaient transformés en mots de droite à l’aide de Google Translate.

Kraeh3n a déclaré avoir découvert le comportement étrange lors de la relecture d’un document pour un collègue, un document qui avait la norme lorem ipsum texte d’espace réservé. Quand elle a commencé à taper « lor..e.. » et a vu « Chine » comme résultat, elle a su que quelque chose était étrange.

« J’ai vu des mots comme Internet, Chine, gouvernement, police et liberté et j’étais curieux de savoir comment cela se passait », a déclaré Kraeh3n. « J’ai immédiatement contacté Michael Shoukry et nous avons commencé à approfondir la question. »

Et ainsi le duo a commencé à tester les limites de ces deux mots en utilisant un mélange de capitalisation et de répétition. Vous trouverez ci-dessous une des nombreuses pages de captures d’écran extraites de leurs résultats :

ipsumlorem

Les chercheurs se sont demandé : que se passait-il ici ? Quelqu’un en dehors de Google a-t-il compris comment associer certains mots à différentes significations dans Google Traduction ? Était-ce un canal de communication secret ou caché ? Peut-être une forme de communication destinée à contourner la censure érigée par le gouvernement chinois avec le Grand pare-feu de Chine? Ou est-ce que tout cela n’était qu’une erreur fortuite dans Matrix ?

Pour sa part, Shoukry s’est entretenu avec des contacts dans l’industrie du renseignement américain, demandant discrètement si la divulgation de ses découvertes pourrait de quelque manière que ce soit compromettre des secrets importants. Les semaines ont passé et ses sources n’ont entendu aucune objection. Une chose était sûre, les résultats changeaient subtilement de jour en jour, et on ne savait pas combien de temps ces deux mots communs mais obscurs continueraient à produire les mêmes résultats.

« Bien que Google Translate puisse être incorrect dans les traductions de ces mots, il est curieux de savoir pourquoi ces mots seraient traduits par des choses telles que » Chine « , » OTAN « et » Internet libre «  », a déclaré Shoukry. « Est-ce que ça pourrait être un bug ? Est-ce intentionnel ? Est-ce un moyen pour les gens de communiquer ? Qu’est-ce que c’est? »

Quand j’ai rencontré Shoukry au Chapeau noir convention sur la sécurité à Las Vegas au début du mois, il avait déjà alerté Google de ses découvertes. De toute évidence, il était temps de faire des tests intenses, et le temps tournait déjà : j’étais convaincu (et malheureusement, correct) qu’une grande partie disparaîtrait à tout moment.

BRÈVE HISTOIRE DU LOREM IPSUM

Cicéron.

Cicéron.

Recherchez sur Internet l’expression « lorem ipsum » et les résultats révèlent pourquoi cette expression étrange a un tel lien avec le lexique du Web. Ses origines dans la modernité sont obscures, mais selon plusieurs sites qui ont tenté de faire la chronique de l’histoire de cette paire de mots, « lorem ipsum » a été tiré d’une section brouillée et altérée de « De finibus bonorum et malorum » (traduit : « De le bien et le mal », un texte latin du 1er siècle av. J.-C. par le grand orateur Cicéron.

Selon Cécile Adamsconservateur du site Internet de trivia La drogue droitele texte de cette œuvre de Cicéron était disponible depuis de nombreuses années sur des feuilles adhésives de différentes tailles et polices de caractères d’une société appelée Letraset.

« A l’époque pré-éditique, un designer découpait le truc avec un couteau X-acto et le collait sur la page », a écrit Adams. « Lorsque les ordinateurs sont arrivés, Alde a inclus lorem ipsum dans son logiciel de publication PageMaker, et vous le voyez maintenant partout où les designers travaillent, y compris partout sur le Web.

Cette paire de mots est si courante que de nombreux systèmes de gestion de contenu Web la déploient comme texte par défaut. Exemple : Lorem Ipsum apparaît même sur healthcare.gov. Selon une histoire publié le 15 août dans le Courrier quotidien, plus d’une douzaine de pages de healthcare.gov apparemment inactives contiennent le texte factice. (Cliquez ici si vous avez sauté cette section).

LOREMipsumsoins de santé

D’AUTRES TESTS

Les choses ont commencé à devenir encore plus intéressantes lorsque les chercheurs ont commencé à ajouter d’autres mots du texte de Cicéron dont le morceau « lorem ipsum » a été extrait, notamment : « Neque porro quisquam est qui dolorem ipsum quia dolor sit amet, consectetur, adipisci velit . . .” (« Il n’y a personne qui aime la douleur elle-même, qui la recherche et qui veuille l’avoir, simplement parce que c’est de la douleur… »).

L’ajout de « dolor », de « sit » et de « consectetur », par exemple, a produit des résultats encore plus bizarres. La traduction de « consectetur Sit Sit Dolor » du latin vers l’anglais donne « Russia May Be Suffering ». « Sit sit dolor dolor » se traduit par « C’est un consommateur intelligent ». Un exemple de ces exemples de traductions est ci-dessous :

ipsum

Le latin est souvent considéré comme une langue « morte », et que cela soit juste ou vrai, il semble assez clair qu’il ne devrait pas y avoir de mots latins pour « téléphone portable », « Internet » et d’autres piliers de la vie moderne au 21e siècle. . Cependant, cette incongruité aide à faire la lumière sur une explication possible de ces traductions étranges : Google Translate n’a tout simplement pas assez de textes latins disponibles pour avoir parfaitement appris la langue.

Dans une vidéo d’introduction intitulée À l’intérieur de Google Traduction, Google explique le fonctionnement du moteur de traduction, les sources d’intelligence du moteur et ses limites. Selon Google, son service de traduction fonctionne « en analysant des millions et des millions de documents qui ont déjà été traduits par des traducteurs humains ». La vidéo continue :

« Ces textes traduits proviennent de livres, d’organisations comme les Nations Unies et de sites Web du monde entier. Nos ordinateurs analysent ces textes à la recherche de modèles statistiquement significatifs. C’est-à-dire des modèles entre la traduction et le texte original qui ont peu de chances de se produire par hasard. Une fois que l’ordinateur a trouvé un modèle, vous pouvez utiliser ce modèle pour traduire des textes similaires à l’avenir. Lorsque vous répétez ce processus des milliards de fois, vous vous retrouvez avec des milliards de modèles et un programme informatique très intelligent.

Voici le hic :

« Pour certaines langues, cependant, nous avons moins de documents traduits disponibles, et donc moins de modèles que notre logiciel a détectés. C’est pourquoi la qualité de nos traductions varie selon la langue et la paire de langues.

Pourtant, cela n’explique pas tout à fait pourquoi Google Translate inclurait autant de références spécifiques à la Chine, à Internet, aux télécommunications, aux entreprises, aux départements et à d’autres couplages étranges dans la traduction du latin vers l’anglais.

Dans tous les cas, nous ne connaîtrons peut-être jamais la véritable explication. Juste avant minuit, le 16 août, Google Translate a brusquement cessé de traduire le mot « lorem » en autre chose que « lorem » du latin vers l’anglais. Google Translate produit toujours des résultats amusants et particuliers lors de la traduction du latin vers l’anglais en général.

Un porte-parole de Google a déclaré que la modification avait été apportée pour corriger un bogue avec l’algorithme de traduction (aligner le passe-partout latin « lorem ipsum » avec un texte anglais sans rapport) plutôt qu’une faille de sécurité.

Kraeh3n a dit qu’elle était convaincue que le lorem ipsum phénomène n’est pas un accident ou un hasard.

« Traduire [is] conçu pour être en mesure d’évoluer et d’apprendre à partir d’informations provenant de la foule afin de refléter les adaptations de l’utilisation de la langue au fil du temps », a déclaré Kraeh3n. « Quelqu’un là-bas a appris à jouer cette capacité et à utiliser un morceau de texte obscur que personne de sensé ne taperait jamais pour créer des significations alternatives totalement aléatoires qui pourraient, potentiellement, être utilisées pour transmettre des messages secrètement. »

Pendant ce temps, Shoukry dit qu’il prévoit de continuer ses tests pour de nouveaux modèles de langue qui peuvent être cachés dans Google Translate.

« L’habileté de cacher quelque chose à la vue de tous existe depuis de nombreuses années », a-t-il déclaré. « Cependant, c’est exceptionnellement brillant parce que ces modèles sont si largement utilisés que les gens y sont désensibilisés, et parce que ce texte est si largement diffusé que personne ne se soucie de se demander pourquoi, comment et d’où il pourrait provenir. »

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *