Alibaba ออก Qwen3-Omni โมเดลอินพุทผสมผสานรุ่นใหม่ รองรับอินพุทภาพ เสียง วิดีโอ และข้อความ
Body
Alibaba เปิดตัว
จุดเด่นของ
ที่มา: Alibaba
arjin Tue, 23/09/2025 - 17:30
Continue reading...
Body
Alibaba เปิดตัว
Qwen3-Omni
โมเดลโอเพนซอร์สในตระกูล Qwen3 ที่รองรับอินพุทผสมผสานทั้งข้อความ ภาพ เสียง วิดีโอ รุ่นถัดจาก Qwen2.5-Omni
โดยสามารถสร้างเอาท์พุตได้ทั้งข้อความและเสียง โมเดลทำงานบนสถาปัตยกรรมที่เรียกว่า Thinker–Talker โดยส่วน Thinker สามารถทำความเข้าใจอินพุทที่หลากหลาย ส่วน Talker มีความสามารถการสร้างเสียงโต้ตอบที่เป็นธรรมชาติจุดเด่นของ
Qwen3-Omni
มีหลายอย่าง ทั้งการทำคะแนนสูงสุดในการทดสอบผลลัพธ์เสียง 22 จาก 36 หัวข้อ, รองรับการสร้างเอาท์พุทข้อความ 119 ภาษา, เข้าใจเสียงได้ 19 ภาษา (ไม่มีไทย) และสร้างเสียงโต้ตอบได้ 10 ภาษา (ไม่มีไทย), ความหน่วงต่ำถึง 211ms กรณีอินพุทแบบเสียง, รับอินพุทไฟล์เสียงสูงสุด 30 นาที ฯลฯQwen3-Omni
มี 3 โมเดลย่อยได้แก่ Instruct รองรับอินพุททุกรูปแบบ, Thinking คิดเป็นเหตุผลนานขึ้น เอาท์พุทมีเฉพาะข้อความ และ Captioner เน้นจับรายละเอียดข้อความเสียง และสร้างผลลัพธ์เป็นข้อความแคปชันออกมา ดูรายละเอียดเพิ่มเติมได้ที่ Hugging Faceที่มา: Alibaba
arjin Tue, 23/09/2025 - 17:30
Continue reading...