
Le géant de la sécurité Internet Cloudflare a annoncé avoir perdu 55% de tous les journaux transmis aux clients sur une période de 3,5 heures en raison d’un bogue dans le service de collecte des journaux le 14 novembre 2024.
Cloudflare offre un service de journalisation complet aux clients qui leur permet de surveiller le trafic sur leur site et de filtrer ce trafic en fonction de certains critères.
Ces journaux permettent aux clients d’analyser le trafic vers leurs hôtes pour surveiller et enquêter sur les incidents de sécurité, le dépannage, les attaques DDoS, les modèles de trafic ou pour optimiser le site.
Pour les clients qui souhaitent analyser ces journaux à l’aide d’outils externes, Cloudflare propose un service « logpush » qui collecte les journaux de ses différents points de terminaison et les envoie vers des services de stockage externes, tels qu’Amazon S3, Elastic, Microsoft Azure, Splunk, Google Cloud Storage, etc.
Ces journaux sont générés à grande échelle, car Cloudflare traite quotidiennement plus de 50 billions de journaux d’événements clients, dont environ 4,5 billions de journaux sont envoyés aux clients.
Une cascade de défaillances à sécurité intégrée
Cloudflare indique qu’un bogue dans le service logpush a entraîné la perte des journaux des clients pendant 3,5 heures le 14 novembre.
« Le 14 novembre 2024, Cloudflare a connu un incident qui a affecté la majorité des clients utilisant les journaux Cloudflare », explique Cloudflare.
« Au cours des quelque 3,5 heures pendant lesquelles ces services ont été affectés, environ 55% des journaux que nous envoyons normalement aux clients n’ont pas été envoyés et ont été perdus. »
L’incident a été causé par une mauvaise configuration de Logfwdr, un composant clé du pipeline de journalisation de Cloudflare chargé de transférer les journaux d’événements du réseau de l’entreprise vers les systèmes en aval.
Plus précisément, une mise à jour de la configuration a introduit un bogue qui a émis une « configuration vierge », indiquant à tort au système qu’il n’y avait aucun client dont les journaux étaient configurés pour être transférés, et donc les journaux ont été supprimés.
Logfwdr est conçu avec une sécurité intégrée qui transfère par défaut tous les journaux en cas de configurations « vides » ou invalides pour éviter la perte de données.
Cependant, ce système à sécurité intégrée a provoqué une augmentation massive du volume de journaux traités alors qu’il tentait de transférer les journaux à tous les clients.
Il a submergé Buftee, un système de mise en mémoire tampon distribuée qui conserve temporairement les journaux lorsque les systèmes en aval ne peuvent pas les traiter en temps réel, qui a été appelé pour gérer 40 fois plus de journaux que sa capacité provisionnée.

Buftee dispose de son propre ensemble de protections contre la surcharge de la mémoire tampon, telles que les plafonds de ressources et la limitation, mais celles-ci ont échoué en raison d’une configuration incorrecte et de l’absence de tests précédents.
Par conséquent, en seulement cinq minutes après la mauvaise configuration dans Logfwdr, Buftee s’est arrêté et a nécessité un redémarrage complet, retardant encore la récupération et entraînant la perte d’encore plus de journaux.
Mesures renforcées
En réponse à l’incident, Cloudflare a mis en œuvre plusieurs mesures pour prévenir de futurs événements.
Cela inclut l’introduction d’un système dédié de détection et d’alerte des erreurs de configuration pour informer immédiatement les équipes lorsque des anomalies dans les configurations de transfert de journaux sont détectées.
De plus, Cloudflare indique qu’il a maintenant correctement configuré Buftee pour empêcher les pics de volumes de journaux de provoquer des pannes complètes du système.
Enfin, la société prévoit d’effectuer régulièrement des tests de surcharge simulant des surtensions inattendues des volumes de données, en veillant à ce que toutes les étapes des mécanismes de sécurité soient suffisamment robustes pour gérer ces événements.