กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

ข่าว Alibaba ออกโมเดล Qwen3-Next รองรับ Long-context และทำ Parameter Scaling ดีขึ้น

News 

Active member

สมาชิกทีมงาน
Moderator
Distributor
Alibaba ออกโมเดล Qwen3-Next รองรับ Long-context และทำ Parameter Scaling ดีขึ้น
Body

Alibaba เปิดตัว Qwen3-Next บอกว่าเป็นโมเดล AI บนสถาปัตยกรรมใหม่ สร้างจากพื้นฐานโมเดล Qwen3 เพื่อปรับปรุงการทำงานใน 2 อย่างได้แก่ ทำให้รองรับอินพุทที่ยาวขึ้น (long-context) และใช้พารามิเตอร์บางส่วนเท่านั้น แม้โมเดลจะมีพารามิเตอร์ขนาดใหญ่ (parameter scaling)

ผลลัพธ์ที่ได้คือโมเดลหลัก Qwen3-Next-80B-A3B-Base ซึ่งขนาดพารามิเตอร์ 80B เมื่อรันขั้นตอน inference จะใช้พารามิเตอร์จริงเพียง 3B เท่านั้น จึงสร้างผลลัพธ์ออกมาได้เร็วกว่าโมเดลเปรียบเทียบ Qwen3-32B ถึง 10 เท่า แม้ภาพรวมจำนวนพารามิเตอร์จะใหญ่กว่า ส่วนการนำไปฝึกฝนต่อก็ใช้ต้นทุนน้อยกว่า 10% เมื่อเทียบด้วยจำนวนชั่วโมงจีพียู ทั้งหมดจึงมีข้อได้เปรียบเทียบเรื่องต้นทุนการประมวลผล

Alibaba ยังออกโมเดลที่ถูกนำไปฝึกฝนเพิ่มเติมคือ Qwen3-Next-80B-A3B-Instruct และ Qwen3-235B-A22B-Instruct-2507 ซึ่งรองรับอินพุทถึง 256K โทเค็น และขยายเพิ่มได้ถึงระดับ 1M โทเค็น เช่นเดียวกับโมเดลแนวคิดที่ละขั้น Qwen3-Next-80B-A3B-Thinking ก็ได้ผลลัพธ์ที่ดีเทียบเท่าบนต้นทุนที่ต่ำกว่ามาก

สามารถดูรายละเอียดของ Qwen3-Next เพิ่มเติมได้ที่ Hugging Face หรือเรียกใช้งานผ่าน Alibaba Cloud Model Studio และ NVIDIA API Catalog

ที่มา: Alibaba

arjin Fri, 12/09/2025 - 15:52

Continue reading...
 



กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง