OpenAI เปิดตัวโมเดลตอบโต้เสียงรุ่นใหม่ gpt-realtime เสียงดี ตอบเก่ง ราคาถูกลง
Body
ข่าวโมเดลใหม่ประจำวัน จากบ้าน OpenAI เปิดตัวโมเดลเสียงตอบเสียง (speech-to-speech) ตัวใหม่
OpenAI บอกว่าเทรนโมเดล gpt-realtime ตามความต้องการของลูกค้าจริงในสถานการณ์จริงต่างๆ เช่น งานบริการลูกค้า ผู้ช่วยส่วนตัว และภาคการศึกษา เพื่อสร้างโมเดลที่เหมาะกับการใช้เป็น voice agent ตอบโจทย์ทั้งแง่คุณภาพเสียง ความฉลาด สามารถปฏิบัติตามคำสั่งได้ไม่แหกกฎ ผลการทดสอบเบนช์มาร์คด้านเสียง Big Bench Audio(opens in a new window) ออกมาดีกว่า
OpenAI คุยว่า gpt-realtime มีเสียงที่เป็นธรรมชาติ ปรับแต่งได้เยอะ เช่น สั่งให้ตอบเร็วแต่ดูเป็นมืออาชีพ หรือ พูดติดสำเนียงฝรั่งเศส นอกจากนี้ยังเพิ่มเสียงใหม่อีก 2 เสียง ชื่อว่า Marin และ Cedar รวมกับเสียงเดิมอีก 8 เสียงเป็น 10 เสียงแล้ว
ข่าวดีอีกประการคือ gpt-realtime ลดค่าใช้งานลง 20% เทียบกับ gpt-4o-realtime-preview ของเดิม ลงมาอยู่ที่ 32 ดอลลาร์ต่อ 1 ล้านโทเคนอินพุตเสียง และ 64 ดอลลาร์ ต่อ 1 ล้านเอาต์พุตโทเคนเสียง
นอกจากนี้ OpenAI ยังประกาศว่า API รับข้อมูลเสียง หรือ Realtime API ที่เปิดตัวในปี 2024 ตอนนี้เข้าสถานะเสถียรหรือ generally available (GA) เรียบร้อยแล้ว และเพิ่มฟีเจอร์ใหม่ๆ อีกหลายอย่าง เช่น
ที่มา - OpenAI
mk Fri, 29/08/2025 - 08:54
Continue reading...
Body
ข่าวโมเดลใหม่ประจำวัน จากบ้าน OpenAI เปิดตัวโมเดลเสียงตอบเสียง (speech-to-speech) ตัวใหม่
gpt-realtime
ความสำคัญตามชื่อคือตอบโต้ด้วยเสียงที่ซับซ้อนได้แบบเรียลไทม์ และเก่งกว่าโมเดลแบบเดียวกันรุ่นก่อนๆOpenAI บอกว่าเทรนโมเดล gpt-realtime ตามความต้องการของลูกค้าจริงในสถานการณ์จริงต่างๆ เช่น งานบริการลูกค้า ผู้ช่วยส่วนตัว และภาคการศึกษา เพื่อสร้างโมเดลที่เหมาะกับการใช้เป็น voice agent ตอบโจทย์ทั้งแง่คุณภาพเสียง ความฉลาด สามารถปฏิบัติตามคำสั่งได้ไม่แหกกฎ ผลการทดสอบเบนช์มาร์คด้านเสียง Big Bench Audio(opens in a new window) ออกมาดีกว่า
gpt-4o-realtime
ตัวเก่าOpenAI คุยว่า gpt-realtime มีเสียงที่เป็นธรรมชาติ ปรับแต่งได้เยอะ เช่น สั่งให้ตอบเร็วแต่ดูเป็นมืออาชีพ หรือ พูดติดสำเนียงฝรั่งเศส นอกจากนี้ยังเพิ่มเสียงใหม่อีก 2 เสียง ชื่อว่า Marin และ Cedar รวมกับเสียงเดิมอีก 8 เสียงเป็น 10 เสียงแล้ว
ข่าวดีอีกประการคือ gpt-realtime ลดค่าใช้งานลง 20% เทียบกับ gpt-4o-realtime-preview ของเดิม ลงมาอยู่ที่ 32 ดอลลาร์ต่อ 1 ล้านโทเคนอินพุตเสียง และ 64 ดอลลาร์ ต่อ 1 ล้านเอาต์พุตโทเคนเสียง
นอกจากนี้ OpenAI ยังประกาศว่า API รับข้อมูลเสียง หรือ Realtime API ที่เปิดตัวในปี 2024 ตอนนี้เข้าสถานะเสถียรหรือ generally available (GA) เรียบร้อยแล้ว และเพิ่มฟีเจอร์ใหม่ๆ อีกหลายอย่าง เช่น
- รองรับ Remote MCP server
- รองรับอินพุทเป็นภาพ
- รองรับ Session Initiation Protocol (SIP) สำหรับเชื่อมต่อการสื่อสารทางโทรศัพท์ เช่น PBX
- Reusable prompts เซฟพร็อมต์เก็บไว้ใช้ใหม่ได้ ไม่ต้องเขียนใหม่ทุกครั้ง
ที่มา - OpenAI
mk Fri, 29/08/2025 - 08:54
Continue reading...