
Les utilisateurs de GitHub ont accidentellement exposé 12,8 millions de secrets d’authentification et sensibles dans plus de 3 millions de référentiels publics en 2023, la grande majorité restant valides après cinq jours.
C’est selon les experts en cybersécurité de GitGuardian, qui ont envoyé 1,8 million d’alertes par e-mail gratuites à ceux qui ont révélé des secrets, ne voyant qu’un minuscule 1,8% des personnes contactées prendre des mesures rapides pour corriger l’erreur.
Les secrets exposés incluent les mots de passe de compte, les clés API, les certificats TLS/SSL, les clés de cryptage, les informations d’identification du service cloud, les jetons OAuth et d’autres données sensibles qui pourraient donner aux acteurs externes un accès illimité à diverses ressources et services privés, entraînant des violations de données et des dommages financiers.
Un rapport Sophos de 2023 a souligné que les informations d’identification compromises représentaient 50% de la cause première de toutes les attaques enregistrées au premier semestre de l’année, suivies de l’exploitation des vulnérabilités, qui était la méthode d’attaque dans 23% des cas.
GitGuardian dit que l’exposition secrète sur GitHub, la plate-forme d’hébergement de code et de collaboration la plus populaire au monde, a suivi une tendance négative depuis 2020.

Les pays les plus » fuyants » pour 2023 étaient l’Inde, les États-Unis, le Brésil, la Chine, la France, le Canada, le Vietnam, l’Indonésie, la Corée du Sud et l’Allemagne.
En termes de secteurs qui ont divulgué le plus de secrets, IL arrive en tête de liste avec la part du lion de 65,9%, suivi de l’éducation avec un remarquable 20,1%, et tous les autres combinés (science, commerce de détail, fabrication, finance, administration publique, soins de santé, divertissement, transport) représentant 14%.
Les détecteurs génériques de GitGuardian, qui ont capturé environ 45% de tous les secrets détectés par l’entreprise en 2023, sont analysés comme suit.

Les détecteurs spécifiques capables d’identifier et de filtrer les secrets divulgués dans des catégories plus tangibles indiquent une exposition massive des clés Google API et Google Cloud, des informations d’identification MongoDB, des jetons de bot OpenWeatherMap et Telegram, des informations d’identification MySQL et PostgreSQL et des clés OAuth GitHub.

2,6% des secrets exposés sont révoqués dans la première heure, mais 91,6% restent valables même après cinq jours, c’est-à-dire lorsque GitGuardian cesse de surveiller leur statut.
Riot Games, GitHub, OpenAI et AWS semblent disposer des meilleurs mécanismes de réponse pour aider à détecter les mauvais commits et à remédier à la situation.
Tendance IA
Les outils d’IA générative ont poursuivi leur croissance explosive en 2023, ce qui se reflète également dans le nombre de secrets pertinents exposés sur GitHub l’année dernière.
GitGuardian a vu une augmentation massive de 1 212 fois le nombre de clés API OpenAI divulguées sur GitHub par rapport à 2022, divulguant en moyenne 46 441 clés API par mois, atteignant le point de données à la croissance la plus élevée du rapport.
OpenAI est connu pour des produits comme ChatGPT et DALL-E, qui sont largement utilisés au-delà de la communauté technologique. De nombreuses entreprises et employés saisissent des informations sensibles sur les invites ChatGPT, et l’exposition de ces clés est extrêmement risquée.
Le référentiel de modèles d’IA open source HuggingFace a connu une forte augmentation des secrets divulgués, ce qui est directement associé à sa popularité croissante parmi les chercheurs et les développeurs d’IA.

D’autres services d’IA, tels que Cohere, Claude, Clarifai, Google Bird, Pinecone et Replicate, avaient également des fuites secrètes, bien qu’à un niveau beaucoup plus bas.
Alors que ceux qui utilisent des services d’IA doivent mieux sécuriser leurs secrets, Git Guardian affirme que les technologies peuvent également être utilisées pour détecter et sécuriser les secrets.
Git Guardian indique que les grands modèles de langage (Lms) peuvent détecter les secrets divulgués rapidement et avec moins de faux positifs.
Cependant, l’échelle opérationnelle massive, les considérations de coût et de temps, et l’efficacité de l’identification sont tous des facteurs limitants qui rendent ces efforts difficiles, du moins pour le moment.
Le mois dernier, GitHub a activé la protection push par défaut pour empêcher l’exposition accidentelle de secrets lors de la transmission d’un nouveau code sur la plate-forme.