SCB 10X เปิดตัวโมเดล Typhoon Isan เทรนมาเพื่อถอดเสียงภาษาอีสาน
Body
SCB 10X เปิดตัวโมเดลภาษาตระกูล Typhoon Isan ที่ออกแบบมาเพื่อถอดเสียงพูดภาษาอีสานโดยเฉพาะ
Typhoon Isan ASR เป็นโมเดลถอดเสียงเป็นตัวอักษร (Automatic Speech Recognition) ที่พยายามแก้ปัญหาเรื่องภาษาถิ่นของประเทศไทย ซึ่งยังไม่มีการจัดเก็บข้อมูลในระบบดิจิทัลมากนัก เมื่อผู้พูดใช้ภาษาถิ่น โมเดลในปัจจุบันจึงถอดเสียงผิดเพี้ยน ทำให้ทีมพัฒนาของ SCB 10X เลือกภาษาอีสานที่มีคนพูด 20 ล้านคน คิดเป็น 1/3 ของประชากร มาเป็นภาษาแรก
ทีมพัฒนายังเตรียมออก Typhoon Isan TTS (Text-to-Speech) โมเดลแปลงข้อความเป็นเสียงพูดภาษาอีสาน และปล่อยชุดข้อมูลภาษาอีสานเป็นข้อมูลเปิด (open data) ต่อสาธารณะ
ที่มา - SCB 10X Typhoon

mk Fri, 28/11/2025 - 21:38
Continue reading...
Body
SCB 10X เปิดตัวโมเดลภาษาตระกูล Typhoon Isan ที่ออกแบบมาเพื่อถอดเสียงพูดภาษาอีสานโดยเฉพาะ
Typhoon Isan ASR เป็นโมเดลถอดเสียงเป็นตัวอักษร (Automatic Speech Recognition) ที่พยายามแก้ปัญหาเรื่องภาษาถิ่นของประเทศไทย ซึ่งยังไม่มีการจัดเก็บข้อมูลในระบบดิจิทัลมากนัก เมื่อผู้พูดใช้ภาษาถิ่น โมเดลในปัจจุบันจึงถอดเสียงผิดเพี้ยน ทำให้ทีมพัฒนาของ SCB 10X เลือกภาษาอีสานที่มีคนพูด 20 ล้านคน คิดเป็น 1/3 ของประชากร มาเป็นภาษาแรก
ทีมพัฒนายังเตรียมออก Typhoon Isan TTS (Text-to-Speech) โมเดลแปลงข้อความเป็นเสียงพูดภาษาอีสาน และปล่อยชุดข้อมูลภาษาอีสานเป็นข้อมูลเปิด (open data) ต่อสาธารณะ
- Isan Speech Transcription Convention แนวทางการถอดเสียงภาษาอีสานเป็นข้อความสำหรับการสร้างชุดข้อมูลเพื่องานด้านเทคโนโลยีทางเสียง
- Isan Spelling Standard อักขรวิธีการสะกดคำภาษาอีสานด้วยอักษรไทย
- Isan Speech Corpus ชุดข้อมูลเสียงพูดภาษาอีสานจากหลายจังหวัดในภาคตะวันออกเฉียงเหนือ
- Isan Phonetic Dictionary พจนานุกรมคำอ่านที่เชื่อมโยงคำกับการออกเสียงในภาษาอีสาน
ที่มา - SCB 10X Typhoon

mk Fri, 28/11/2025 - 21:38
Continue reading...