هذا المنشور متاح أيضًا باللغات Anglais, Français, Arabic
🚨 تقرير حادث Cloudflare:
نظرة تفصيلية على الانقطاع الذي حدث في 18 نوفمبر 2025
شهدت Cloudflare فشلًا كبيرًا في الشبكة في 18 نوفمبر 2025، بدءًا من حوالي 11:20 بالتوقيت العالمي المنسق (UTC)، مما أدى إلى منع تسليم حركة مرور الشبكة الأساسية وعرض أخطاء للمستخدمين الذين يحاولون الوصول إلى المواقع المحمية بواسطة Cloudflare. لم يكن الانقطاع نتيجة لهجوم إلكتروني، بل كان خطأً معقدًا في التكوين الداخلي.
الخوادم المتأثرة:
- خوادم تلفزيون بروتوكول الإنترنت (IP TV SERVERS): متأثرة
- خادم البريد SBIR (MAILING SBIR SERVER): غير متأثر
- خادم واجهة برمجة تطبيقات تخطيط موارد المؤسسات (ERP API SERVER): متأثر
الشركات المتأثرة:
- GEMINI
- PREXEBILITY
- CANVA
- DROPBOX
- X (تويتر سابقًا)
- Chatgpt (OpenAI)
السبب الجذري: تغيير في أذونات قاعدة البيانات
تم تتبع الحادث إلى تغيير في الأذونات على أحد مجموعات قواعد بيانات ClickHouse التابعة لـ Cloudflare في الساعة 11:05 بالتوقيت العالمي المنسق. أدى هذا التحسين الأمني الذي بدا بسيطًا إلى تغيير غير مقصود في سلوك استعلام حاسم يستخدمه نظام إدارة الروبوتات (Bot Management).
- تكرارات غير متوقعة: بدأ الاستعلام المُنقَّح، الذي لم يعد يقوم بالتصفية حسب قاعدة بيانات ‘default’، في إرجاع إدخالات مكررة للأعمدة، متضمنًا بشكل فعال البيانات الوصفية من مخطط أساسي (r0).
- تضخم ملف الميزات: تسبب هذا في مضاعفة حجم « ملف تكوين الميزات » الأساسي لنظام إدارة الروبوتات.
- فشل النظام: تم نشر هذا الملف كبير الحجم عبر شبكة Cloudflare بأكملها. كان برنامج توجيه حركة المرور الأساسي (الوكيل الخاص بنا، المعروف باسم FL2) لديه حد حجم محدد (200 ميزة) لهذا الملف بسبب التخصيص المسبق للذاكرة لأغراض الأداء. عندما تجاوز الملف هذا الحد، واجه النظام خطأً غير مُعالَج، مما أدى إلى فشل النظام وتسليم أخطاء HTTP 5xx.
السلوك غير المستقر والحل
في البداية، كان الفشل متقطعًا، حيث كان النظام يتعطل ثم يستعيد عافيته كل خمس دقائق. كان هذا بسبب إعادة إنشاء ملف التكوين الخاطئ على أساس دوري، اعتمادًا على جزء مجموعة قاعدة البيانات المحدّث تدريجياً الذي وصل إليه الاستعلام. أدت هذه التقلبات بفريق الاستجابة للحوادث إلى الاشتباه في البداية بوجود هجوم حجب خدمة موزّع (DDoS) واسع النطاق.
أبرز نقاط الجدول الزمني للحل:
- 11:20 بالتوقيت العالمي المنسق: بدء التأثير.
- 13:05 بالتوقيت العالمي المنسق: محاولات التخفيف: تم تجاوز Workers KV و Cloudflare Access للعودة إلى إصدار وكيل أقدم، مما قلل التأثير على تلك الخدمات.
- 14:24 بالتوقيت العالمي المنسق: حدد الفريق ملف التكوين الخاطئ كمصدر للأخطاء ونجح في إيقاف إنشائه ونشره.
- 14:30 بالتوقيت العالمي المنسق: تم حل التأثير الرئيسي. تم إدخال نسخة جيدة ومعروفة من ملف التكوين يدويًا ونشرها عالميًا.
- 17:06 بالتوقيت العالمي المنسق: تم استعادة جميع الأنظمة بالكامل، وعادت أحجام أخطاء 5xx إلى وضعها الطبيعي.
الخدمات المتأثرة
في حين عانت خدمات شبكة توصيل المحتوى (CDN) والأمان الأساسية من أخطاء HTTP 5xx واسعة الانتشار، تأثرت خدمات أخرى أيضًا:
| الخدمة / المنتج | ملخص التأثير |
| شبكة CDN والأمان الأساسية | رموز حالة HTTP 5xx واسعة الانتشار. |
| Workers KV | ارتفاع أخطاء HTTP 5xx حتى تطبيق التجاوز. |
| Cloudflare Access | إخفاقات واسعة النطاق في المصادقة حتى تطبيق التجاوز. |
| لوحة التحكم/Turnstile | عدم قدرة العديد من المستخدمين على تسجيل الدخول بسبب الاعتماد على Turnstile و Workers KV. |
| أمان البريد الإلكتروني | انخفاض مؤقت في دقة اكتشاف الرسائل غير المرغوب فيها؛ لم يُلاحظ أي تأثير حاسم على العملاء. |
التطلع إلى الأمام
تُقر Cloudflare بخطورة هذا الانقطاع — وهو الأسوأ منذ عام 2019 بالنسبة لحركة المرور الأساسية — وتعتذر بشدة عن الاضطراب الذي تسبب فيه لعملائها وللإنترنت بشكل عام.
تشمل الخطوات الفورية للمتابعة ما يلي:
- تعزيز الاستيعاب: معالجة ملفات التكوين الداخلية بنفس التحقق الصارم من المدخلات المستخدم للمدخلات التي ينشئها المستخدم.
- مفاتيح الإيقاف: تطبيق المزيد من مفاتيح الإيقاف العالمية للميزات.
- مراجعة حالات الفشل: مراجعة أوضاع الفشل وشروط الخطأ عبر جميع وحدات الوكيل الأساسي لمنع حالات الفشل غير المعالجة.
تلتزم Cloudflare ببناء أنظمة جديدة أكثر مرونة لضمان عدم تكرار انقطاع من هذا النوع.
