ข่าว Alibaba ออก Qwen3-Omni โมเดลอินพุทผสมผสานรุ่นใหม่ รองรับอินพุทภาพ เสียง วิดีโอ และข้อความ

News · 2025-09-23T18:18:24+0700

Alibaba ออก Qwen3-Omni โมเดลอินพุทผสมผสานรุ่นใหม่ รองรับอินพุทภาพ เสียง วิดีโอ และข้อความ
Body

Alibaba เปิดตัว Qwen3-Omni โมเดลโอเพนซอร์สในตระกูล Qwen3 ที่รองรับอินพุทผสมผสานทั้งข้อความ ภาพ เสียง วิดีโอ รุ่นถัดจาก Qwen2.5-Omni โดยสามารถสร้างเอาท์พุตได้ทั้งข้อความและเสียง โมเดลทำงานบนสถาปัตยกรรมที่เรียกว่า Thinker–Talker โดยส่วน Thinker สามารถทำความเข้าใจอินพุทที่หลากหลาย ส่วน Talker มีความสามารถการสร้างเสียงโต้ตอบที่เป็นธรรมชาติ

จุดเด่นของ Qwen3-Omni มีหลายอย่าง ทั้งการทำคะแนนสูงสุดในการทดสอบผลลัพธ์เสียง 22 จาก 36 หัวข้อ, รองรับการสร้างเอาท์พุทข้อความ 119 ภาษา, เข้าใจเสียงได้ 19 ภาษา (ไม่มีไทย) และสร้างเสียงโต้ตอบได้ 10 ภาษา (ไม่มีไทย), ความหน่วงต่ำถึง 211ms กรณีอินพุทแบบเสียง, รับอินพุทไฟล์เสียงสูงสุด 30 นาที ฯลฯ

Qwen3-Omni มี 3 โมเดลย่อยได้แก่ Instruct รองรับอินพุททุกรูปแบบ, Thinking คิดเป็นเหตุผลนานขึ้น เอาท์พุทมีเฉพาะข้อความ และ Captioner เน้นจับรายละเอียดข้อความเสียง และสร้างผลลัพธ์เป็นข้อความแคปชันออกมา ดูรายละเอียดเพิ่มเติมได้ที่ Hugging Face

ที่มา: Alibaba

arjin Tue, 23/09/2025 - 17:30

Continue reading...