Mistral เปิดตัว Voxtrol โมเดล AI สำหรับเสียงแบบโอเพนซอร์ส ที่ทำงานได้ดีด้วยต้นทุนที่ถูกกว่าคู่แข่ง
Body
Mistral AI เปิดตัว Voxtral โมเดล AI สำหรับเสียงตัวแรกของบริษัท โดยบอกว่าเป็นโมเดลแบบโอเพนซอร์ส ใช้งานได้จริง และมีต้นทุนใช้งานที่เข้าถึงได้
Mistral บอกว่าโมเดล AI สำหรับเสียงที่มีอยู่ปัจจุบันแบ่งได้เป็น 2 ประเภท ซึ่งมีข้อดีข้อเสียที่ต้องแลกกันคือแบบ ASR ที่เป็นโอเพนซอร์ส ที่ทำงานได้จำกัด ข้อผิดพลาดเยอะ และแบบ API เป็นระบบปิด ทำงานได้ดี แต่ต้นทุนใช้งานสูง ปรับแต่งได้ไม่มาก ซึ่ง Voxtral จะทำให้ผู้ใช้งานไม่ต้องแลกข้อดี-ข้อเสียนี้
Voxtral มี 2 โมเดลย่อย ขนาดพารามิเตอร์ 24B สำหรับใช้งานเบื้องหลังแอปในสเกลใหญ่ และขนาด 3B สำหรับรันที่ระดับอุปกรณ์ ทั้งสองโมเดลนี้รองรับสูงสุด 32,000 โทเค็น ถอดเสียงได้ยาว 30 นาที และรองรับเสียงอินพุทได้ถึง 40 นาที มีความสามารถถอดความ สรุปเนื้อหาเสียง และตรวจจับภาษาที่ใช้ได้อัตโนมัติ โดยเบื้องต้นรองรับภาษาหลักที่นิยมใช้ในโลก เช่น อังกฤษ สเปน ฝรั่งเศส โปรตุเกส ฯลฯ
ส่วนจุดเด่นเรื่องต้นทุนนั้น Mistral บอกว่าตัวอย่างโปรแกรม Voxtral Mini Transcribe ทำงานได้ดีกว่า OpenAI Whisper ด้วยต้นทุนที่ถูกมากกว่าครึ่งหนึ่ง หรือกรณีการใช้งานขั้นสูง Voxtral Small ก็ทำงานได้ใกล้เคียงกับ ElevenLabs Scribe แต่ต้นทุนถูกมากกว่าครึ่ง
Voxtral เปิดให้ดาวน์โหลดแล้วผ่าน Hugging Face หรือเรียกใช้งานได้ผ่าน API และแชทบอต Le Chat
ที่มา: Mistral AI
arjin Wed, 16/07/2025 - 08:02
Continue reading...
Body
Mistral AI เปิดตัว Voxtral โมเดล AI สำหรับเสียงตัวแรกของบริษัท โดยบอกว่าเป็นโมเดลแบบโอเพนซอร์ส ใช้งานได้จริง และมีต้นทุนใช้งานที่เข้าถึงได้
Mistral บอกว่าโมเดล AI สำหรับเสียงที่มีอยู่ปัจจุบันแบ่งได้เป็น 2 ประเภท ซึ่งมีข้อดีข้อเสียที่ต้องแลกกันคือแบบ ASR ที่เป็นโอเพนซอร์ส ที่ทำงานได้จำกัด ข้อผิดพลาดเยอะ และแบบ API เป็นระบบปิด ทำงานได้ดี แต่ต้นทุนใช้งานสูง ปรับแต่งได้ไม่มาก ซึ่ง Voxtral จะทำให้ผู้ใช้งานไม่ต้องแลกข้อดี-ข้อเสียนี้
Voxtral มี 2 โมเดลย่อย ขนาดพารามิเตอร์ 24B สำหรับใช้งานเบื้องหลังแอปในสเกลใหญ่ และขนาด 3B สำหรับรันที่ระดับอุปกรณ์ ทั้งสองโมเดลนี้รองรับสูงสุด 32,000 โทเค็น ถอดเสียงได้ยาว 30 นาที และรองรับเสียงอินพุทได้ถึง 40 นาที มีความสามารถถอดความ สรุปเนื้อหาเสียง และตรวจจับภาษาที่ใช้ได้อัตโนมัติ โดยเบื้องต้นรองรับภาษาหลักที่นิยมใช้ในโลก เช่น อังกฤษ สเปน ฝรั่งเศส โปรตุเกส ฯลฯ
ส่วนจุดเด่นเรื่องต้นทุนนั้น Mistral บอกว่าตัวอย่างโปรแกรม Voxtral Mini Transcribe ทำงานได้ดีกว่า OpenAI Whisper ด้วยต้นทุนที่ถูกมากกว่าครึ่งหนึ่ง หรือกรณีการใช้งานขั้นสูง Voxtral Small ก็ทำงานได้ใกล้เคียงกับ ElevenLabs Scribe แต่ต้นทุนถูกมากกว่าครึ่ง
Voxtral เปิดให้ดาวน์โหลดแล้วผ่าน Hugging Face หรือเรียกใช้งานได้ผ่าน API และแชทบอต Le Chat
ที่มา: Mistral AI
arjin Wed, 16/07/2025 - 08:02
Continue reading...