CrowdStrike a publié un Examen préliminaire après incident (PIR) sur la mise à jour défectueuse de Falcon expliquant qu’un bogue permettait à de mauvaises données de passer son validateur de contenu et de provoquer le plantage de millions de systèmes Windows le 19 juillet 2024.
La société de cybersécurité a expliqué que le problème était dû à une mise à jour problématique de la configuration du contenu destinée à recueillir des données télémétriques sur les nouvelles techniques de menace.
Après avoir réussi le validateur de contenu, la mise à jour n’a pas fait l’objet de vérifications supplémentaires en raison de la confiance accordée aux déploiements réussis précédents du type de modèle de communication interprocessus (IPC) sous-jacent. Par conséquent, il n’a pas été intercepté avant d’atteindre des hôtes en ligne exécutant Falcon version 7.11 et versions ultérieures.
L’entreprise s’est rendu compte de l’erreur et a annulé la mise à jour dans l’heure qui a suivi.
Cependant, à ce moment-là, il était trop tard. Environ 8,5 millions de systèmes Windows, sinon plus, ont subi une lecture de mémoire hors limites et se sont bloqués lorsque l’interpréteur de contenu a traité la nouvelle mise à jour de la configuration.
Tests inadéquats
CrowdStrike utilise des données de configuration appelées types de modèles IPC qui permettent au capteur Falcon de détecter les comportements suspects sur les appareils sur lesquels le logiciel est installé.
Les modèles IPC sont fournis via des mises à jour régulières du contenu qui appellent le contenu de réponse rapide de CrowdStrike. »Ce contenu est similaire à une mise à jour de définition antivirus, permettant à CrowdStrike d’ajuster les capacités de détection d’un capteur pour détecter de nouvelles menaces sans nécessiter de mises à jour complètes en modifiant simplement ses données de configuration.
Dans ce cas, CrowdStrike a tenté de pousser une nouvelle configuration pour détecter les abus malveillants des canaux nommés dans les frameworks C2 courants.
Bien que CrowdStrike n’ait pas spécifiquement nommé les frameworks C2 ciblés, certains chercheurs pensent que la mise à jour a tenté de détecter de nouvelles fonctionnalités de tubes nommées dans Cobalt Strike. Breachtrace a contacté CrowdStrike lundi pour savoir si les détections de grève au cobalt étaient à l’origine des problèmes, mais n’a pas reçu de réponse.
Selon l’entreprise, le nouveau type de modèle IPC et les instances de modèle correspondantes chargées de mettre en œuvre la nouvelle configuration ont été minutieusement testés à l’aide de techniques de test de résistance automatisées.
Ces tests incluent l’utilisation des ressources, l’impact sur les performances du système, le volume d’événements et les interactions système défavorables.
Le Validateur de contenu, un composant qui vérifie et valide les instances de modèle, a vérifié et approuvé trois instances individuelles, qui ont été poussées les 5 mars, 8 avril et 24 avril 2024, sans problème.
Le 19 juillet, deux instances de modèle IPC supplémentaires ont été déployées, l’une contenant la configuration défectueuse, que le validateur de contenu a manquée en raison d’un bogue.
CrowdStrike indique qu’en raison de la confiance de base des tests précédents et des déploiements réussis, aucun test supplémentaire tel que des vérifications dynamiques n’a été effectué, de sorte que la mauvaise mise à jour a atteint les clients, provoquant une panne informatique mondiale massive.
Cependant, sur la base du PIR, le contenu de réponse rapide utilise des tests automatisés au lieu d’être testé localement sur des appareils internes, ce qui aurait probablement détecté le problème.
CrowdStrike dit qu’ils introduiront des tests de développeurs locaux pour le futur contenu de réponse rapide, comme expliqué ci-dessous.
Nouvelles mesures
CrowdStrike met en œuvre plusieurs mesures supplémentaires pour éviter des incidents similaires à l’avenir.
Plus précisément, l’entreprise a énuméré les étapes supplémentaires suivantes lors du test du contenu de réponse rapide:
- Tests de développeurs locaux
- Test de mise à jour et de restauration du contenu
- Tests de résistance, fuzzing et injection de défauts
- Essais de stabilité
- Test de l’interface de contenu
De plus, des contrôles de validation supplémentaires seront ajoutés au Validateur de contenu, et la gestion des erreurs dans l’interpréteur de contenu sera améliorée pour éviter de telles erreurs conduisant à des machines Windows inutilisables.
En ce qui concerne le déploiement de contenu à réponse rapide, les modifications suivantes sont prévues:
- Mettez en œuvre une stratégie de déploiement échelonné, en commençant par un petit déploiement canari avant de l’étendre progressivement.
- Améliorez la surveillance des performances des capteurs et des systèmes pendant les déploiements, en utilisant les commentaires pour guider un déploiement progressif.
- Offrez aux clients plus de contrôle sur la livraison des mises à jour de contenu à réponse rapide, en leur permettant de choisir quand et où les mises à jour sont déployées.
- Offrez des détails sur la mise à jour du contenu via des notes de publication, auxquelles les clients peuvent s’abonner pour obtenir des informations en temps opportun.
Crowdstrike a promis de publier un article d’analyse des causes profondes plus détaillé à l’avenir, et plus de détails seront disponibles une fois l’enquête interne terminée.