Les chercheurs ont montré qu’il est possible d’abuser de l’API vocale en temps réel d’OpenAI pour ChatGPT-4o, un chatbot LLM avancé, pour mener des escroqueries financières avec des taux de réussite faibles à modérés.
ChatGPT-4o est le dernier modèle d’IA d’OpenAI qui apporte de nouvelles améliorations, telles que l’intégration d’entrées et de sorties de texte, de voix et de vision.
En raison de ces nouvelles fonctionnalités, OpenAI a intégré diverses protections pour détecter et bloquer les contenus nuisibles, tels que la réplication de voix non autorisées.
Les escroqueries vocales représentent déjà un problème de plusieurs millions de dollars, et l’émergence de la technologie deepfake et des outils de synthèse vocale alimentés par l’IA ne font qu’empirer la situation.
Comme les chercheurs de l’UIUC Richard Fang, Dylan Bowman et Daniel Kang l’ont démontré dans leur article, les nouveaux outils technologiques actuellement disponibles sans restrictions ne comportent pas suffisamment de garanties pour se protéger contre les abus potentiels des cybercriminels et des fraudeurs.
Ces outils peuvent être utilisés pour concevoir et mener des opérations d’escroquerie à grande échelle sans effort humain en couvrant le coût des jetons pour les événements de génération de voix.
Résultats de l’étude
L’article du chercheur explore diverses escroqueries telles que les virements bancaires, l’exfiltration de cartes-cadeaux, les transferts cryptographiques et le vol d’informations d’identification pour les comptes de médias sociaux ou Gmail.
Les agents d’IA qui effectuent les escroqueries utilisent des outils d’automatisation ChatGPT-4o à commande vocale pour naviguer dans les pages, saisir des données et gérer les codes d’authentification à deux facteurs et les instructions spécifiques liées aux escroqueries.
Étant donné que GPT-4o refusera parfois de traiter des données sensibles telles que des informations d’identification, les chercheurs ont utilisé de simples techniques de jailbreak rapide pour contourner ces protections.
Au lieu de personnes réelles, les chercheurs ont démontré comment ils interagissaient manuellement avec l’agent IA, simulant le rôle d’une victime crédule, en utilisant de vrais sites Web tels que Bank of America pour confirmer les transactions réussies.
« Nous avons déployé nos agents sur un sous-ensemble d’escroqueries courantes. Nous avons simulé des escroqueries en interagissant manuellement avec l’agent vocal, jouant le rôle d’une victime crédule », a expliqué Kang dans un article de blog sur la recherche.
« Pour déterminer le succès, nous avons confirmé manuellement si l’état final était atteint sur de vraies applications/sites Web. Par exemple, nous avons utilisé Bank of America pour des escroqueries par virement bancaire et avons confirmé que de l’argent avait effectivement été transféré. Cependant, nous n’avons pas mesuré la capacité de persuasion de ces agents. »
Dans l’ensemble, les taux de réussite variaient de 20 à 60%, chaque tentative nécessitant jusqu’à 26 actions de navigateur et pouvant durer jusqu’à 3 minutes dans les scénarios les plus complexes.
Virements bancaires et usurpation d’identité d’agents de l’IRS, la plupart des échecs étant causés par des erreurs de transcription ou des exigences complexes de navigation sur le site. Cependant, le vol d’informations d’identification sur Gmail a réussi 60% du temps, tandis que les transferts cryptographiques et le vol d’informations d’identification sur Instagram n’ont fonctionné que 40% du temps.
En ce qui concerne le coût, les chercheurs notent que l’exécution de ces escroqueries est relativement peu coûteuse, chaque cas réussi coûtant en moyenne 0,75$.
L’arnaque par virement bancaire, qui est plus compliquée, coûte 2,51$. Bien que significativement plus élevé, cela reste très faible par rapport au profit potentiel qui peut être tiré de ce type d’arnaque.
Réponse d’OpenAI
OpenAI a déclaré à Breachtrace que son dernier modèle, o1 (actuellement en préversion), qui prend en charge le « raisonnement avancé », a été construit avec de meilleures défenses contre ce type d’abus.
« Nous améliorons constamment ChatGPT pour arrêter les tentatives délibérées de le tromper, sans perdre son utilité ou sa créativité.
Notre dernier modèle de raisonnement o1 est le plus performant et le plus sûr à ce jour, surpassant de manière significative les modèles précédents en résistant aux tentatives délibérées de générer du contenu dangereux. »- Porte-parole d’OpenAI
OpenAI a également noté que des articles comme celui-ci de l’UIUC les aident à améliorer ChatGPT pour arrêter l’utilisation malveillante, et ils étudient toujours comment ils peuvent augmenter sa robustesse.
Déjà, le TPG-4o comprend un certain nombre de mesures visant à prévenir les abus, notamment en limitant la génération de voix à un ensemble de voix préapprouvées pour empêcher l’usurpation d’identité.
o1-preview obtient des scores significativement plus élevés selon l’évaluation de la sécurité des jailbreaks d’OpenAI, qui mesure dans quelle mesure le modèle résiste à la génération de contenu dangereux en réponse à des invites contradictoires, obtenant un score de 84% contre 22% pour GPT-4o.
Lorsqu’ils ont été testés à l’aide d’un ensemble de nouvelles évaluations de sécurité plus exigeantes, les scores d’aperçu de l’o1 étaient significativement plus élevés, 93% contre 71% pour le GPT-4o.
Vraisemblablement, à mesure que des LLM plus avancés avec une meilleure résistance aux abus deviendront disponibles, les plus anciens seront progressivement éliminés.
Cependant, le risque que les acteurs de la menace utilisent d’autres chatbots vocaux avec moins de restrictions persiste, et des études comme celle-ci mettent en évidence le potentiel de dommages substantiels de ces nouveaux outils.