Alibaba ออกโมเดล Qwen3-Next รองรับ Long-context และทำ Parameter Scaling ดีขึ้น
Body
Alibaba เปิดตัว
ผลลัพธ์ที่ได้คือโมเดลหลัก
Alibaba ยังออกโมเดลที่ถูกนำไปฝึกฝนเพิ่มเติมคือ
สามารถดูรายละเอียดของ
ที่มา: Alibaba
arjin Fri, 12/09/2025 - 15:52
Continue reading...
Body
Alibaba เปิดตัว
Qwen3-Next
บอกว่าเป็นโมเดล AI บนสถาปัตยกรรมใหม่ สร้างจากพื้นฐานโมเดล Qwen3 เพื่อปรับปรุงการทำงานใน 2 อย่างได้แก่ ทำให้รองรับอินพุทที่ยาวขึ้น (long-context) และใช้พารามิเตอร์บางส่วนเท่านั้น แม้โมเดลจะมีพารามิเตอร์ขนาดใหญ่ (parameter scaling)ผลลัพธ์ที่ได้คือโมเดลหลัก
Qwen3-Next-80B-A3B-Base
ซึ่งขนาดพารามิเตอร์ 80B เมื่อรันขั้นตอน inference จะใช้พารามิเตอร์จริงเพียง 3B เท่านั้น จึงสร้างผลลัพธ์ออกมาได้เร็วกว่าโมเดลเปรียบเทียบ Qwen3-32B
ถึง 10 เท่า แม้ภาพรวมจำนวนพารามิเตอร์จะใหญ่กว่า ส่วนการนำไปฝึกฝนต่อก็ใช้ต้นทุนน้อยกว่า 10% เมื่อเทียบด้วยจำนวนชั่วโมงจีพียู ทั้งหมดจึงมีข้อได้เปรียบเทียบเรื่องต้นทุนการประมวลผลAlibaba ยังออกโมเดลที่ถูกนำไปฝึกฝนเพิ่มเติมคือ
Qwen3-Next-80B-A3B-Instruct
และ Qwen3-235B-A22B-Instruct-2507
ซึ่งรองรับอินพุทถึง 256K โทเค็น และขยายเพิ่มได้ถึงระดับ 1M โทเค็น เช่นเดียวกับโมเดลแนวคิดที่ละขั้น Qwen3-Next-80B-A3B-Thinking
ก็ได้ผลลัพธ์ที่ดีเทียบเท่าบนต้นทุนที่ต่ำกว่ามากสามารถดูรายละเอียดของ
Qwen3-Next
เพิ่มเติมได้ที่ Hugging Face หรือเรียกใช้งานผ่าน Alibaba Cloud Model Studio และ NVIDIA API Catalogที่มา: Alibaba
arjin Fri, 12/09/2025 - 15:52
Continue reading...