
ในวันที่ 18 พฤศจิกายน 2025 ได้เกิดเหตุขัดข้องครั้งใหญ่บนระบบของ Cloudflare ทำให้เว็บไซต์และบริการจำนวนมากทั่วโลกไม่สามารถเข้าใช้งานได้ชั่วคราว ไม่ว่าจะเป็น X (Twitter เดิม), ChatGPT, รวมถึง Downdetector ซึ่งถูกใช้ตรวจสอบเหตุล่มก็ได้รับผลกระทบไปด้วย ส่งผลให้ผู้ใช้งานจำนวนมากรายงานปัญหาอินเทอร์เน็ตไม่สามารถเข้าถึงบริการที่ใช้ Cloudflare เป็นโครงสร้างพื้นฐานได้ตามปกติ
เหตุการณ์เริ่มต้นขึ้นในเวลาประมาณ 11:48 UTC (18:48 น. ตามเวลาไทย) โดย Cloudflare ระบุในหน้า Status ว่ามี “การทำงานผิดปกติจากระบบภายใน” ซึ่งกระทบต่อหลายบริการพร้อมกัน รวมถึงระบบ Access และ WARP ที่มีผู้ใช้งานจำนวนมาก โดยเฉพาะในบางภูมิภาคที่ปริมาณทราฟฟิกผ่าน Cloudflare สูงมาก
สาเหตุเกิดจากบั๊กในระบบ Bot Mitigation ของ Cloudflare
หลังการตรวจสอบ Cloudflare ยืนยันว่า ต้นตอของปัญหามาจากบั๊กในระบบ bot mitigation ซึ่งทำหน้าที่กรองบ็อตและจัดการทราฟฟิกอัตโนมัติ เช่น ระบบ Turnstile และการตรวจสอบด้วย JavaScript
การเปลี่ยนค่าคอนฟิกเพียงเล็กน้อยในขั้น routine ซึ่งโดยปกติควรปลอดภัย กลับไปกระตุ้นบั๊กแฝงที่ยังไม่ได้รับการแก้ ทำให้บริการที่พึ่งพาส่วนนี้เกิดอาการ crash และลามไปยังบริการอื่นที่เกี่ยวข้องแบบลูกโซ่
Dane Knecht, CTO ของ Cloudflare, ออกมาขอโทษผ่านโพสต์สาธารณะ โดยระบุว่า
“เราทำให้ลูกค้าและผู้ใช้งานอินเทอร์เน็ตโดยรวมได้รับผลกระทบโดยไม่สมควร บั๊กที่ซ่อนอยู่ในระบบ bot mitigation เกิดอาการล้มหลังมีการเปลี่ยนค่าคอนฟิกปกติ ทำให้เกิดผลกระทบเป็นวงกว้าง นี่ไม่ใช่การโจมตี แต่เป็นความผิดพลาดของเราเอง”
การกู้คืนระบบและผลกระทบต่อบริการต่าง ๆ
Cloudflare ระบุว่าระบบเริ่มกลับมาเป็นปกติในเวลาประมาณ 14:42 UTC (21:42 น. ตามเวลาไทย) หลังจากทีมวิศวกรรีบแก้ไขและทยอยกู้คืนองค์ประกอบต่าง ๆ ของเครือข่าย
อย่างไรก็ตาม ระบบ Dashboard รวมถึงฟีเจอร์วิเคราะห์ข้อมูลและ error log ยังมีอาการทำงานไม่เต็มประสิทธิภาพในช่วงบ่าย ซึ่งเป็นขั้นตอนปกติหลังจากเหตุการณ์เสถียรภาพระดับนี้ นอกจากนี้ยังมีการปิดการใช้งาน WARP ชั่วคราวในบางจุด เช่น ลอนดอน เพื่อช่วยลดภาระของระบบในช่วงกู้คืน
ผลกระทบครั้งนี้ถือว่ามีขนาดใหญ่ เนื่องจาก Cloudflare ไม่ได้เป็นเพียง CDN สำหรับส่งข้อมูลเว็บไซต์ แต่ยังมีระบบรักษาความปลอดภัย ระบบกรองบ็อต ระบบ DNS และบริการเชื่อมต่ออีกหลายส่วนที่อยู่ “ในเส้นทางทราฟฟิก” ของเว็บไซต์จำนวนมากทั่วโลก
เพียงชั้น bot mitigation ทำงานผิดปกติ ก็เพียงพอที่จะทำให้ผู้ใช้งานทั่วไปไม่สามารถเข้าถึงเว็บไซต์จำนวนมากได้ แม้ว่าระบบ CDN หรือ DNS หลักของ Cloudflare จะยังใช้งานได้ก็ตาม
ปัญหาใหญ่ครั้งที่สามในรอบเดือนของผู้ให้บริการระบบคลาวด์
นอกจาก Cloudflare เหตุการณ์นี้เกิดขึ้นหลังจากมีปัญหาใหญ่ของบริการคลาวด์หลายแห่งในช่วงเดือนที่ผ่านมา ได้แก่
- เหตุล่มของ AWS US-East-1 ซึ่งกินเวลามากกว่า 2 ชั่วโมง เกิดจากปัญหาคอนฟิก DNS ภายใน
- เหตุล่มของ Microsoft Azure เพียงไม่กี่วันหลังจากนั้น
เมื่อรวมกับเหตุการณ์ของ Cloudflare ครั้งนี้ ทำให้เกิดคำถามอย่างจริงจังเกี่ยวกับความสามารถของผู้ให้บริการขนาดใหญ่ในการแยกปัญหาภายใน (dependency isolation) และการรับมือเมื่อเกิดบั๊กในระบบที่สำคัญ
ปัจจุบันมีการประเมินว่า
- ราว 19% ของเว็บไซต์บนอินเทอร์เน็ตใช้ Cloudflare
- Azure ครองสัดส่วนตลาดประมาณ 24%
- AWS ครองสัดส่วนประมาณ 30%
ดังนั้นเมื่อบริการใดบริการหนึ่งเกิดปัญหา แม้เพียงคอนฟิกเล็กน้อยที่กระทบบริการชั้นรอง ก็สามารถทำให้เกิดผลเสียหายระดับสากลได้ทันที
สรุป
เหตุการณ์ล่มครั้งใหญ่ของ Cloudflare ในวันนี้ชี้ให้เห็นถึงความเปราะบางของอินเทอร์เน็ตยุคใหม่ ซึ่งหลายบริการต้องพึ่งพาโครงสร้างพื้นฐานจากผู้ให้บริการเพียงไม่กี่ราย แม้เพียงคอนฟิกเล็กน้อยที่เปลี่ยนไปกระทบบริการชั้นรอง ก็สามารถทำให้เกิดผลเสียหายระดับโลกได้
อย่างไรก็ตาม ทีม Cloudflare ได้แก้ไขอย่างรวดเร็วและออกมารับผิดชอบอย่างตรงไปตรงมา ซึ่งเป็นสิ่งสำคัญสำหรับการรักษาความเชื่อมั่นของผู้ใช้งานทั่วโลกในระยะยาว
ที่มา: tomshardware





