DeepMind ออก Aeneas โมเดลอ่านภาษาละตินโบราณ พยากรณ์ข้อความที่ขาดหายไปได้
Body
DeepMind เปิดตัว Aeneas โมเดลทำความเข้าใจภาษาละตินโบราณ ช่วยงานเวลานักโบราณคดีค้นพบโบราณวัตถุ ที่มีข้อความโบราณซึ่งอาจอ่านไม่ออก หรือมีข้อความบางส่วนขาดหายไป
ก่อนหน้านี้ DeepMind มีโมเดลชื่อ Ithaca สำหรับอ่านข้อความภาษากรีกโบราณ และนำมาพัฒนาต่อจนเป็น Aeneas สำหรับภาษาละตินในยุคโรมัน
จุดเด่นของ Aeneas คือการพยากรณ์ข้อความที่ขาดหายไปได้ โดยไม่รู้แม้กระทั่งความยาวของข้อความที่หายไปว่ายาวเท่าไร โมเดลยังรองรับอินพุตแบบ multimodal คือใช้ได้ทั้งภาพและข้อความพร้อมกัน, รองรับ parallel search ค้นหาข้อความลักษณะคล้ายๆ กันในคลังข้อความภาษาละตินโบราณอื่น
เบื้องหลังการพัฒนา Aeneas ใช้ฐานข้อมูลอักษรละตินขนาดใหญ่หลายอัน เช่น Epigraphic Database Roma (EDR), Epigraphic Database Heidelberg (EDH), Epigraphic Database Clauss Slaby (EDCS-ELT) นำข้อมูลมาทำความสะอาด เชื่อมต่อกันเป็นชุดข้อมูลขนาดใหญ่ชุดเดียว มีข้อความมากกว่า 176,000 รายการ ตั้งชื่อเรียกว่า Latin Epigraphic Dataset (LED)
โมเดล Aeneas ใช้สถาปัตยกรรม decoder แบบเดียวกับ transformer รับอินพุต และมีเครือข่ายพิเศษจัดการเรื่องการทายข้อความที่ขาดหายไป, มีฟีเจอร์การจัดกลุ่มข้อความโบราณตามแต่ละยุคที่ภาษาต่างกัน
DeepMind ลองนำ Aeneas ไปอ่านข้อความโบราณ Res Gestae Divi Augusti ของจักรพรรดิ Augustus เพื่อวิเคราะห์ว่าข้อความถูกเขียนขึ้นในยุคใด ซึ่งเป็นสิ่งที่นักประวัติศาสตร์ยังถกเถียงกันอยู่ ผลคือ Aeneas พยากรณ์ความเป็นไปได้มา 2 ยุค ถึงแม้ยังไม่ได้ข้อยุติเรื่องยุคสมัย แต่ DeepMind บอกว่าเป็นวิธีการสันนิษฐานที่สามารถวัดผลเป็นตัวเลขได้ (quantitative way) ต่างจากวิธีแบบอื่นๆ ที่เป็นคาดเดาของนักประวัติศาสตร์แต่ละคน
หลังพัฒนา Aeneas แล้ว DeepMind ยังกลับไปอัพเกรดโมเดล Ithaca เดิมให้ทำงานผ่าน Aeneas และมีฟีเจอร์ทัดเทียมกัน โมเดลทั้งสองตัวมีให้ทดสอบใช้งานบนหน้าเว็บ
ที่มา - DeepMind
mk Thu, 24/07/2025 - 20:37
Continue reading...
Body
DeepMind เปิดตัว Aeneas โมเดลทำความเข้าใจภาษาละตินโบราณ ช่วยงานเวลานักโบราณคดีค้นพบโบราณวัตถุ ที่มีข้อความโบราณซึ่งอาจอ่านไม่ออก หรือมีข้อความบางส่วนขาดหายไป
ก่อนหน้านี้ DeepMind มีโมเดลชื่อ Ithaca สำหรับอ่านข้อความภาษากรีกโบราณ และนำมาพัฒนาต่อจนเป็น Aeneas สำหรับภาษาละตินในยุคโรมัน
จุดเด่นของ Aeneas คือการพยากรณ์ข้อความที่ขาดหายไปได้ โดยไม่รู้แม้กระทั่งความยาวของข้อความที่หายไปว่ายาวเท่าไร โมเดลยังรองรับอินพุตแบบ multimodal คือใช้ได้ทั้งภาพและข้อความพร้อมกัน, รองรับ parallel search ค้นหาข้อความลักษณะคล้ายๆ กันในคลังข้อความภาษาละตินโบราณอื่น
เบื้องหลังการพัฒนา Aeneas ใช้ฐานข้อมูลอักษรละตินขนาดใหญ่หลายอัน เช่น Epigraphic Database Roma (EDR), Epigraphic Database Heidelberg (EDH), Epigraphic Database Clauss Slaby (EDCS-ELT) นำข้อมูลมาทำความสะอาด เชื่อมต่อกันเป็นชุดข้อมูลขนาดใหญ่ชุดเดียว มีข้อความมากกว่า 176,000 รายการ ตั้งชื่อเรียกว่า Latin Epigraphic Dataset (LED)
โมเดล Aeneas ใช้สถาปัตยกรรม decoder แบบเดียวกับ transformer รับอินพุต และมีเครือข่ายพิเศษจัดการเรื่องการทายข้อความที่ขาดหายไป, มีฟีเจอร์การจัดกลุ่มข้อความโบราณตามแต่ละยุคที่ภาษาต่างกัน
DeepMind ลองนำ Aeneas ไปอ่านข้อความโบราณ Res Gestae Divi Augusti ของจักรพรรดิ Augustus เพื่อวิเคราะห์ว่าข้อความถูกเขียนขึ้นในยุคใด ซึ่งเป็นสิ่งที่นักประวัติศาสตร์ยังถกเถียงกันอยู่ ผลคือ Aeneas พยากรณ์ความเป็นไปได้มา 2 ยุค ถึงแม้ยังไม่ได้ข้อยุติเรื่องยุคสมัย แต่ DeepMind บอกว่าเป็นวิธีการสันนิษฐานที่สามารถวัดผลเป็นตัวเลขได้ (quantitative way) ต่างจากวิธีแบบอื่นๆ ที่เป็นคาดเดาของนักประวัติศาสตร์แต่ละคน
หลังพัฒนา Aeneas แล้ว DeepMind ยังกลับไปอัพเกรดโมเดล Ithaca เดิมให้ทำงานผ่าน Aeneas และมีฟีเจอร์ทัดเทียมกัน โมเดลทั้งสองตัวมีให้ทดสอบใช้งานบนหน้าเว็บ
ที่มา - DeepMind
mk Thu, 24/07/2025 - 20:37
Continue reading...