
GitHub a un problème avec les « étoiles » inauthentiques utilisées pour gonfler artificiellement la popularité des référentiels de distribution d’escroqueries et de logiciels malveillants pour apparaître plus populaires, les aidant à atteindre plus d’utilisateurs sans méfiance.
Les étoiles sont similaires aux boutons « J’aime » sur les sites de médias sociaux, permettant aux utilisateurs de GitHub de mettre un référentiel en favori. GitHub utilise les étoiles dans le cadre d’un système de classement mondial et pour vous montrer du contenu connexe qu’il pense que vous pourriez aimer.
« Vous pouvez mettre en vedette des référentiels et des sujets pour découvrir des projets similaires sur GitHub. Lorsque vous mettez en vedette des référentiels ou des sujets, GitHub peut recommander du contenu connexe sur votre tableau de bord personnel », explique GitHub.

Le problème a déjà été documenté, comme l’été dernier lorsque Check Point a découvert un service de diffusion de logiciels malveillants nommé « Stargazers Ghost Network », qui utilisait un vaste réseau d’utilisateurs inauthentiques mettant en vedette de faux projets pour pousser des logiciels malveillants voleurs d’informations.
Les projets non malveillants utilisent également de fausses étoiles pour augmenter leur popularité, augmenter leur portée et attirer l’attention des utilisateurs légitimes, de vraies étoiles et l’adoption.
Une nouvelle étude menée par des chercheurs de Socket, de l’Université Carnegie Mellon et de l’Université d’État de Caroline du Nord nous donne une meilleure idée de l’ampleur du problème, trouvant 4,5 millions d’étoiles sur GitHub, qui sont soupçonnées d’être fausses.

À la recherche de fausses étoiles
Les chercheurs ont développé et utilisé un outil appelé « Star Scout » pour analyser 20 To de données provenant des « Archives GH » afin de trouver des étoiles non authentiques.
L’archive GH contient des métadonnées de plus de 6 milliards d’événements GitHub de juillet 2019 à octobre 2024, dont 60,5 millions d’actions d’utilisateurs sur 310 millions de référentiels et 610 millions d’étoiles.
StarScout détecte les utilisateurs qui affichent une activité minimale sur GitHub, comme la mise en vedette d’un seul référentiel, qui ont des modèles d’activité de bot ou de compte temporaire, et des groupes de comptes qui agissent en coordination, comme la mise en vedette des mêmes référentiels dans un court laps de temps.
Leur méthode est basée sur CopyCatch, un algorithme conçu pour détecter les schémas frauduleux dans les réseaux sociaux.

4,5 millions d’étoiles soupçonnées d’être des contrefaçons
Après avoir traité les données en appliquant des algorithmes de signature à faible activité et de verrouillage pour identifier les étoiles suspectes dans les référentiels, l’équipe a trouvé 4 530 000 étoiles suspectes non authentiques données par 1 320 000 comptes dans 22 915 référentiels.
Pour accroître la confiance dans la vraie nature de ces étoiles, les chercheurs ont filtré les faux positifs potentiels en ne considérant que les référentiels avec un pic anormal significatif d’activité des vedettes en un seul mois, et pour lesquels le pourcentage de contrefaçons était supérieur à 10%, par rapport au nombre total d’étoiles.
Cela a réduit le résultat à 3 100 000 fausses étoiles données par 278 000 comptes à 15 835 référentiels.

Parmi ceux-ci, environ 91% des référentiels et 62% des comptes présumés inauthentiques ont été supprimés en octobre 2024, ce qui confirme la précision de l’outil StarScout.
L’étude montre également que l’activité de fausses étoiles a augmenté en 2024, environ 15,8% des référentiels ayant plus de 50 étoiles en juillet 2024 étant impliqués dans ces campagnes malveillantes.
Les chercheurs ont signalé que les référentiels et les comptes identifiés par StarScout étaient inauthentiques en juillet 2024, et GitHub les a tous supprimés. Cependant, ils sont toujours en train d’évaluer et de signaler d’autres grappes trouvées en novembre 2024.

Les implications des fausses étoiles sur GitHub et ses utilisateurs sont multiples, mais généralement, le problème érode la confiance dans la plateforme et les différents projets logiciels qui y sont hébergés.
Les utilisateurs doivent regarder au-delà des étoiles, évaluer l’activité et la qualité du référentiel, lire la documentation, examiner le contenu et les contributions, et revoir le code si possible.
Les dépôts GitHub trompeurs sont répandus, et la plate-forme a même été exploitée dans des opérations parrainées par l’État, alors soyez prudent lorsque vous téléchargez des logiciels à partir de celle-ci.
Breachtrace a contacté GitHub pour en savoir plus sur la façon dont la plateforme combat activement le problème des fausses étoiles, mais nous attendons toujours leur réponse.