ไม่ใช่ DNS, Cloudflare ชี้แจงเหตุล่ม คิวรีฐานข้อมูลผิดจนได้ข้อมูลซ้ำ สร้างคอนฟิกใหญ่จนเซิร์ฟเวอร์ล่ม
Body
Cloudflare ชี้แจงถึงเหตุล่มเมื่อคืนที่ผ่านมา โดยเกิดเหตุ 11:20 ตามเวลา UTC หรือ 18:20 ในประเทศไทย โดยสาเหตุหลักเกิดจากระบบการสร้างคอนฟิกมีบั๊กจนสร้างข้อมูลซ้ำๆ ในไฟล์จนมีขนาดใหญ่เกินไป ส่งผลให้เซิร์ฟเวอร์ล่มในที่สุด
สาเหตุที่กระบวนการแก้ไขล่าช้าเพราะทีมงานเข้าใจว่าถูกยิง DDoS อยู่ จนกระทั่งมาพบสาเหตุที่แท้จริงในภายหลัง และระหว่างที่ระบบมีปัญหาก็ไม่ได้จำกัดอยู่ที่ CDN เท่านั้น บริการข้างเคียงลากไปด้วยจำนวนหนึ่ง เช่น Turnstile ที่ล่มไปเลย และทำให้ผู้ใช้เข้า Dashboard ไม่ได้ไปด้วย เช่นเดียวกับ Cloudflare Access
ปัญหาล่างสุดเกิดจากทีม ClickHouse ปรับสิทธิการใช้งาน 15 นาทีก่อนเกิดเหตุ ให้สามารถคิวรีฐานข้อมูลด้านในได้ จากเดิมที่ได้เฉพาะ
ผลคิวรีเหล่านี้ถูกใช้งานในระบบ Bot Management ที่คิวรีฟีเจอร์ของ table ต่างๆ ในฐานข้อมูล เดิมมีข้อมูลประมาณ 60 บรรทัด และระบบจำกัดไว้ที่ 200 บรรทัด แต่เมื่อเกิดบั๊กนี้ระบบได้รับข้อมูลเกินที่คาดก็ทำให้ FL2 ที่เป็นตัวพรอกซี่ แครชไป
ตอนนี้ระบบการอ่านคอนฟิกของซอฟต์แวร์จากระบบภายในของ Cloudflare เองถูกปรับให้ต้องตรวจสอบแบบเดียวกับการรับคอนฟิกจากภายนอก
เหตุการณ์ครั้งนี้เป็นการล่มครั้งใหญ่ที่สุดในรอบ 6 ปีของ Cloudflare Matthew Prince CTO ของ Cloudflare จบรายงานด้วยการขอโทษทุกคนที่ลำบากในวันนี้
ที่มา - Cloudflare
lew Wed, 19/11/2025 - 11:50
Continue reading...
Body
Cloudflare ชี้แจงถึงเหตุล่มเมื่อคืนที่ผ่านมา โดยเกิดเหตุ 11:20 ตามเวลา UTC หรือ 18:20 ในประเทศไทย โดยสาเหตุหลักเกิดจากระบบการสร้างคอนฟิกมีบั๊กจนสร้างข้อมูลซ้ำๆ ในไฟล์จนมีขนาดใหญ่เกินไป ส่งผลให้เซิร์ฟเวอร์ล่มในที่สุด
สาเหตุที่กระบวนการแก้ไขล่าช้าเพราะทีมงานเข้าใจว่าถูกยิง DDoS อยู่ จนกระทั่งมาพบสาเหตุที่แท้จริงในภายหลัง และระหว่างที่ระบบมีปัญหาก็ไม่ได้จำกัดอยู่ที่ CDN เท่านั้น บริการข้างเคียงลากไปด้วยจำนวนหนึ่ง เช่น Turnstile ที่ล่มไปเลย และทำให้ผู้ใช้เข้า Dashboard ไม่ได้ไปด้วย เช่นเดียวกับ Cloudflare Access
ปัญหาล่างสุดเกิดจากทีม ClickHouse ปรับสิทธิการใช้งาน 15 นาทีก่อนเกิดเหตุ ให้สามารถคิวรีฐานข้อมูลด้านในได้ จากเดิมที่ได้เฉพาะ
default เท่านั้น แต่การเปิดให้ผู้ใช้คิวรีข้อมูลด้านในคลัสเตอร์โดยตรง ทำให้เมื่อคิวรีตาราง system โดยไม่ได้ระบุฐานข้อมูลโดยตรง จะทำให้ได้ row ที่ซ้ำกันไปมาจำนวนมากผลคิวรีเหล่านี้ถูกใช้งานในระบบ Bot Management ที่คิวรีฟีเจอร์ของ table ต่างๆ ในฐานข้อมูล เดิมมีข้อมูลประมาณ 60 บรรทัด และระบบจำกัดไว้ที่ 200 บรรทัด แต่เมื่อเกิดบั๊กนี้ระบบได้รับข้อมูลเกินที่คาดก็ทำให้ FL2 ที่เป็นตัวพรอกซี่ แครชไป
ตอนนี้ระบบการอ่านคอนฟิกของซอฟต์แวร์จากระบบภายในของ Cloudflare เองถูกปรับให้ต้องตรวจสอบแบบเดียวกับการรับคอนฟิกจากภายนอก
เหตุการณ์ครั้งนี้เป็นการล่มครั้งใหญ่ที่สุดในรอบ 6 ปีของ Cloudflare Matthew Prince CTO ของ Cloudflare จบรายงานด้วยการขอโทษทุกคนที่ลำบากในวันนี้
ที่มา - Cloudflare
lew Wed, 19/11/2025 - 11:50
Continue reading...