AWS เปิดรายละเอียดเหตุ US-EAST-1 ล่ม พบตัวอัพเดต DNS สองตัวแย่งกันอัพเดตจนพัง
Body
AWS รายงานถึงสาเหตุที่ US-EAST-1 มีปัญหายาวกว่า 12 ชั่วโมงเมื่อวันจันทร์ที่ผ่านมา โดยพบว่าเกิดจากกระบวนการอัพเดต DNS ที่มีตัวอัพเดตหลายตัวเขียนข้อมูลคนละเวอร์ชั่นกันจนระบบเกิด race condition ทำให้โดเมน
บริการภายในอย่าง DynamoDB นั้นต้องการ DNS ระดับแสนหลายรายเพื่อจัดการความซับซ้อนภายใน ทำให้ใน AWS มี DNS Planner เพื่อวางแผนการอัพเดต DNS ให้เหมาะสมอยู่เสมอ โดยตัว Planner นั้นรันชุดเดียวต่อ region แต่กระบวนการอัพเดตเข้า Route 53 (บริการ DNS ของ AWS) นั้นจะอาศัย DNS Enactor ที่รันอยู่บน Availability Zones (AZ) ใน US-EAST-1 จึงมี Enactor รันอยู่สามตัว
เหตุการณ์ครั้งนี้เกิดขึ้นเพราะ Planner มีเหตุต้องอัพเดตแผนสองตัวใกล้ๆ กัน ระหว่างกระบวนการอัพเดต Enactor สองตัวได้รับแผนคนละเวอร์ชั่นแล้วพยายามเขียนลง Route 53 ซ้อนกัน โดยกระบวนการช่วงท้ายของการอัพเดต คือการล้างข้อมูลจากแผนเวอร์ชั่นเดิมออก ซีึ่งทำให้โดเมนของ DynamoDB ถูกล้างออกไป และกระบวนการเขียนแผนเวอร์ชั่นใหม่ก็ล้มเหลว
เหตุการณ์นี้ถูกทวีตบันทึกไว้โดย Nathan Broadbent นักพัฒนาจาก DocSpring ผู้ให้บริการเซ็นเอกสารดิจิทัลที่ทวีตว่า DNS ของ DynamoDB หายไปจาก US-EAST-1 หลายนาทีก่อนระบบจะเร่ิมล่มไปจริงๆ
ที่มา - AWS
Continue reading...
Body
AWS รายงานถึงสาเหตุที่ US-EAST-1 มีปัญหายาวกว่า 12 ชั่วโมงเมื่อวันจันทร์ที่ผ่านมา โดยพบว่าเกิดจากกระบวนการอัพเดต DNS ที่มีตัวอัพเดตหลายตัวเขียนข้อมูลคนละเวอร์ชั่นกันจนระบบเกิด race condition ทำให้โดเมน
dynamodb.us-east-1.amazonaws.com ถูกลบหายไป สร้างเหตุการณ์ต่อเนื่องไปยังระบบต่างๆ เป็นวงกว้างบริการภายในอย่าง DynamoDB นั้นต้องการ DNS ระดับแสนหลายรายเพื่อจัดการความซับซ้อนภายใน ทำให้ใน AWS มี DNS Planner เพื่อวางแผนการอัพเดต DNS ให้เหมาะสมอยู่เสมอ โดยตัว Planner นั้นรันชุดเดียวต่อ region แต่กระบวนการอัพเดตเข้า Route 53 (บริการ DNS ของ AWS) นั้นจะอาศัย DNS Enactor ที่รันอยู่บน Availability Zones (AZ) ใน US-EAST-1 จึงมี Enactor รันอยู่สามตัว
เหตุการณ์ครั้งนี้เกิดขึ้นเพราะ Planner มีเหตุต้องอัพเดตแผนสองตัวใกล้ๆ กัน ระหว่างกระบวนการอัพเดต Enactor สองตัวได้รับแผนคนละเวอร์ชั่นแล้วพยายามเขียนลง Route 53 ซ้อนกัน โดยกระบวนการช่วงท้ายของการอัพเดต คือการล้างข้อมูลจากแผนเวอร์ชั่นเดิมออก ซีึ่งทำให้โดเมนของ DynamoDB ถูกล้างออกไป และกระบวนการเขียนแผนเวอร์ชั่นใหม่ก็ล้มเหลว
เหตุการณ์นี้ถูกทวีตบันทึกไว้โดย Nathan Broadbent นักพัฒนาจาก DocSpring ผู้ให้บริการเซ็นเอกสารดิจิทัลที่ทวีตว่า DNS ของ DynamoDB หายไปจาก US-EAST-1 หลายนาทีก่อนระบบจะเร่ิมล่มไปจริงๆ
ที่มา - AWS
lew Thu, 23/10/2025 - 16:47something weird is happening to https://t.co/IYQuAjP5yomaybe it's just my machine somehow but there's no DNS record anymore on Google or Cloudflare pic.twitter.com/CPW6f84qHM
— Nathan Broadbent (@ndbroadbent) October 20, 2025
Continue reading...