
Une tentative de blocage d’une URL de phishing dans la plate-forme de stockage d’objets R2 de Cloudflare s’est retournée contre elle hier, déclenchant une panne généralisée qui a entraîné la panne de plusieurs services pendant près d’une heure.
Cloudflare R2 est un service de stockage d’objets similaire à Amazon S3, conçu pour un stockage de données évolutif, durable et à faible coût. Il offre des récupérations de données gratuites, la compatibilité S3, la réplication des données sur plusieurs emplacements et l’intégration des services Cloudflare.
La panne s’est produite hier lorsqu’un employé a répondu à un rapport d’abus concernant une URL de phishing sur la plate-forme R2 de Cloudflare. Cependant, au lieu de bloquer le point de terminaison spécifique, l’employé a désactivé par erreur l’ensemble du service de passerelle R2.
« Lors d’une correction d’abus de routine, des mesures ont été prises sur une plainte qui a désactivé par inadvertance le service de passerelle R2 au lieu du point de terminaison/compartiment spécifique associé au rapport », a expliqué Cloudflare dans son article post-mortem.
« Il s’agissait d’un échec des contrôles multiples au niveau du système (d’abord et avant tout) et de la formation des opérateurs. »
L’incident a duré 59 minutes, entre 08h10 et 09h09 UTC, et outre le stockage d’objets R2 lui-même, il a également affecté des services tels que:
- Flux-échec à 100% des téléchargements de vidéos et de la diffusion en continu.
- Images-échec à 100% des téléchargements/téléchargements d’images.
- Réserve de cache-échec à 100% des opérations, entraînant une augmentation des demandes d’origine.
- Vectorisation-échec de 75% dans les requêtes, échec de 100% dans les opérations d’insertion, d’extraction et de suppression.
- Délais de livraison des journaux et perte de données: Jusqu’à 13,6% de perte de données pour les journaux liés à R2, jusqu’à 4,5% de perte de données pour les tâches de livraison non R2.
- Auditeur de transparence clé-échec à 100% des opérations de publication et de lecture des signatures.
Il y a également eu des services indirectement impactés qui ont connu des défaillances partielles comme les Objets durables, qui ont connu une augmentation du taux d’erreur de 0,09% en raison des reconnexions après la récupération, la purge du cache, qui a connu une augmentation de 1,8% des erreurs (HTTP 5xx) et un pic de latence 10x, et les Travailleurs et Pages, qui ont connu des échecs de déploiement de 0,002%, affectant uniquement les projets avec des liaisons R2.

Cloudflare note que l’erreur humaine et l’absence de garanties telles que les contrôles de validation pour les actions à fort impact ont été la clé de cet incident.
Le géant de l’Internet a maintenant mis en œuvre des correctifs immédiats, tels que la suppression de la possibilité de désactiver les systèmes dans l’interface d’examen des abus et des restrictions dans l’API d’administration pour empêcher la désactivation du service dans les comptes internes.
D’autres mesures à mettre en œuvre à l’avenir comprennent une amélioration de l’approvisionnement des comptes, un contrôle d’accès plus strict et un processus d’approbation bipartite pour les actions à haut risque.
En novembre 2024, Cloudflare a connu une autre panne notable pendant 3,5 heures, entraînant la perte irréversible de 55% de tous les journaux du service.
Cet incident a été causé par des défaillances en cascade des systèmes d’atténuation automatique de Cloudflare déclenchées en poussant une mauvaise configuration vers un composant clé du pipeline de journalisation de l’entreprise.