Panne de Cloudflare le 18 novembre 2025

Voici la traduction en français de l’article Anglais, Français, Arabic

🚨 Rapport d’incident Cloudflare :

Un examen détaillé de la panne du 18 novembre 2025

Cloudflare a connu une panne réseau importante le 18 novembre 2025, commençant vers 11h20 UTC, qui a empêché la distribution du trafic réseau principal et affiché des erreurs aux utilisateurs accédant aux sites protégés par Cloudflare. La panne n’était pas le résultat d’une cyberattaque, mais plutôt d’une erreur de configuration interne complexe.

Serveurs Affectés :

SERVEURS IP TV : Affectés
SERVEUR DE MESSAGERIE SBIR : Non Affecté
SERVEUR ERP API : Affecté

Entreprises Affectées :

GEMINI
PREXEBILITY
CANVA
DROPBOX
X(TWITTER)
Chatgpt(OpenAI)

La Cause Profonde : Un Changement de Permission de Base de Données

L’incident a été attribué à un changement de permissions sur l’un des clusters de base de données ClickHouse de Cloudflare à 11h05 UTC. Cette amélioration de sécurité apparemment mineure a involontairement modifié le comportement d’une requête critique utilisée par le système de Gestion des Bots (Bot Management).

Doublons Inattendus : La requête révisée, qui ne filtrait plus pour la base de données ‘default’, a commencé à renvoyer des entrées en double pour les colonnes, incluant de fait les métadonnées d’un schéma sous-jacent (r0).
Gonflement du Fichier de Fonctionnalités : Cela a entraîné un doublement de la taille du « fichier de configuration des fonctionnalités » essentiel au système de Gestion des Bots.
Panique du Système : Ce fichier surdimensionné a été propagé sur l’ensemble du réseau Cloudflare. Le logiciel de routage du trafic principal (notre proxy, appelé FL2) avait une limite de taille codée en dur (200 fonctionnalités) pour ce fichier, en raison de la préallocation de mémoire pour des raisons de performance. Lorsque le fichier a dépassé cette limite, le système a rencontré une erreur non gérée, entraînant une panique du système et la livraison d’erreurs HTTP 5xx.

Le Comportement Instable et la Résolution

Initialement, la panne était erratique, le système tombant en panne puis se rétablissant toutes les cinq minutes. Cela s’expliquait par le fait que le mauvais fichier de configuration était régénéré de manière cyclique, en fonction de la partie du cluster de base de données progressivement mise à jour sur laquelle la requête était exécutée. Cette fluctuation a conduit l’équipe de réponse à l’incident à suspecter initialement une attaque DDoS hyper-massive.

Faits Marquants de la Chronologie de la Résolution :

11h20 UTC : Début de l’impact.
13h05 UTC : Tentatives d’atténuation : Workers KV et Cloudflare Access ont été contournés pour revenir à une version de proxy plus ancienne, réduisant l’impact sur ces services.
14h24 UTC : L’équipe a identifié le mauvais fichier de configuration comme la source des erreurs et a réussi à arrêter sa génération et sa propagation.
14h30 UTC : Impact principal résolu. Une version connue et valide du fichier de configuration a été insérée manuellement et déployée mondialement.
17h06 UTC : Tous les systèmes ont été entièrement restaurés et les volumes d’erreurs 5xx sont revenus à la normale.

Services Affectés

Bien que les services CDN et de sécurité de base aient connu des erreurs HTTP 5xx généralisées, d’autres services ont également été touchés :

Service / Produit	Résumé de l’Impact
CDN & Sécurité de Base	Codes d’état HTTP 5xx généralisés.
Workers KV	Niveau élevé d’erreurs HTTP 5xx jusqu’à la mise en œuvre du contournement.
Cloudflare Access	Défaillances d’authentification généralisées jusqu’à la mise en œuvre du contournement.
Dashboard/Turnstile	Impossibilité pour de nombreux utilisateurs de se connecter en raison des dépendances de Turnstile et Workers KV.
Email Security	Réduction temporaire de la précision de la détection de spam ; aucun impact critique observé pour les clients.

Perspectives d’Avenir

Cloudflare reconnaît la gravité de cette panne — la pire depuis 2019 pour le trafic principal — et présente ses excuses les plus sincères pour la perturbation causée à ses clients et à l’Internet en général.

Les prochaines étapes immédiates comprennent :

Durcissement de l’Ingestion : Traiter les fichiers de configuration internes avec la même validation d’entrée rigoureuse que celle utilisée pour les entrées générées par l’utilisateur.
Interrupteurs d’Urgence (Kill Switches) : Mettre en œuvre plus d’interrupteurs d’urgence globaux pour les fonctionnalités.
Examen des Modes de Défaillance : Examiner les modes de défaillance et les conditions d’erreur sur tous les modules du proxy principal pour éviter les paniques non gérées.

Cloudflare s’engage à construire de nouveaux systèmes plus résilients pour s’assurer qu’une panne de cette nature ne se reproduise plus.

Please follow and like us:

459

2350