IBM เปิดตัว Granite 4.0 โมเดลไฮบริด Transformer-Mamba ใช้แรมน้อยลงมาก
Body
IBM มีโมเดล LLM ของตัวเองชื่อ Granite มาสักพักใหญ่ๆ และล่าสุดเปิดตัว Granite 4.0 ซึ่ง IBM เรียกว่ามันคือ hybrid models for enterprise
เหตุผลที่ Granite 4.0 นิยามตัวเองว่า hybrid model เพราะมันใช้สถาปัตยกรรม transformer (แบบที่โมเดลอื่นๆ ใช้กัน) ผสมผสานกับสถาปัตยกรรม Mamba-2 ที่มีวิธีทำงานแตกต่างออกไป ใช้ทรัพยากรน้อยกว่าในการประมวลผล
จุดอ่อนของโมเดลตระกูล transformer คือใช้พลังประมวลผลแบบกำลังสอง (quadratically) ยิ่งข้อมูลยิ่งยาว ยิ่งต้องประมวลผลเยอะแบบยกกำลังสองไปเรื่อยๆ จนเกิดภาวะ quadratic bottleneck ที่ให้คำตอบช้าลง ต้นทุนค่ารันแพงขึ้น สิ้นเปลืองแรมมากขึ้น
สถาปัตยกรรม Mamba เกิดขึ้นในปี 2023 โดย Albert Gu นักวิจัยจาก CMU และ Tri Dao จาก Princeton ใช้กลไกที่เรียกว่า selectivity เป็นการขยายเชิงเส้น (linearly) ถ้าข้อมูลยาวเพิ่มสองเท่า โมเดล Mamba คำนวณเพิ่มสองเท่า ไม่ใช่ยกกำลังสอง จึงมีข้อดีเรื่องประหยัดทรัพยากรมากกว่า
ทีมวิจัยของ IBM นำสถาปัตยกรรม transformer มาผสมกับ Mamba ในสัดส่วน 1:9 รวมข้อดีของสถาปัตยกรรมทั้งสองแบบเข้าด้วยกัน โดยมีบล็อค mixture of experts (MoE) คอยเชื่อมข้อมูลระหว่างบล็อคแต่ละประเภท (ดูภาพประกอบ)
ข้อดีของ Granite 4.0 จึงเป็นการทำงานโดยใช้แรมน้อยลงมาก และยังรักษาประสิทธิภาพเอาไว้ได้ มันสามารถรันบนจีพียูราคาถูกลงมา ช่วยลดต้นทุนลงได้เทียบกับโมเดล LLM แบบดั้งเดิม (ในงานตัวเดียวกัน ใช้แรม 15GB เทียบกับโมเดล Granite 3.3 ตัวเดิมที่ใช้แรม 90GB ลดลง 6 เท่า)
ผลการทดสอบ Granite 4.0 สามารถเอาชนะโมเดลไซส์เล็ก (นับตามพารามิเตอร์) ระดับใกล้ๆ กันอย่าง Qwen3, Mitral-Small, Llama-3.1-8B ได้โดยใช้แรมน้อยกว่ากันมาก และหากไปเทียบกับโมเดลรุ่นใหญ่ๆ อย่าง GPT-4o นั้นมีต้นทุนค่ารันน้อยกว่ากันเกือบ 100 เท่าเลยทีเดียว
โมเดลตระกูล Granite 4.0 ตอนนี้มีด้วยกัน 4 เวอร์ชันย่อยคือ
โมเดล Granite 4.0 เปิดเป็น open weight สามารถรันได้บนไลบรารียอดนิยมอย่าง vLLM, Hugging Face Transformers แบบเต็มประสิทธิภาพ ส่วนบน llama.cpp และ MLX รันได้แต่ยังต้องปรับแต่งประสิทธิภาพต่อ
ที่มา - IBM
mk Fri, 03/10/2025 - 21:01
Continue reading...
Body
IBM มีโมเดล LLM ของตัวเองชื่อ Granite มาสักพักใหญ่ๆ และล่าสุดเปิดตัว Granite 4.0 ซึ่ง IBM เรียกว่ามันคือ hybrid models for enterprise
เหตุผลที่ Granite 4.0 นิยามตัวเองว่า hybrid model เพราะมันใช้สถาปัตยกรรม transformer (แบบที่โมเดลอื่นๆ ใช้กัน) ผสมผสานกับสถาปัตยกรรม Mamba-2 ที่มีวิธีทำงานแตกต่างออกไป ใช้ทรัพยากรน้อยกว่าในการประมวลผล
จุดอ่อนของโมเดลตระกูล transformer คือใช้พลังประมวลผลแบบกำลังสอง (quadratically) ยิ่งข้อมูลยิ่งยาว ยิ่งต้องประมวลผลเยอะแบบยกกำลังสองไปเรื่อยๆ จนเกิดภาวะ quadratic bottleneck ที่ให้คำตอบช้าลง ต้นทุนค่ารันแพงขึ้น สิ้นเปลืองแรมมากขึ้น
สถาปัตยกรรม Mamba เกิดขึ้นในปี 2023 โดย Albert Gu นักวิจัยจาก CMU และ Tri Dao จาก Princeton ใช้กลไกที่เรียกว่า selectivity เป็นการขยายเชิงเส้น (linearly) ถ้าข้อมูลยาวเพิ่มสองเท่า โมเดล Mamba คำนวณเพิ่มสองเท่า ไม่ใช่ยกกำลังสอง จึงมีข้อดีเรื่องประหยัดทรัพยากรมากกว่า
ทีมวิจัยของ IBM นำสถาปัตยกรรม transformer มาผสมกับ Mamba ในสัดส่วน 1:9 รวมข้อดีของสถาปัตยกรรมทั้งสองแบบเข้าด้วยกัน โดยมีบล็อค mixture of experts (MoE) คอยเชื่อมข้อมูลระหว่างบล็อคแต่ละประเภท (ดูภาพประกอบ)
ข้อดีของ Granite 4.0 จึงเป็นการทำงานโดยใช้แรมน้อยลงมาก และยังรักษาประสิทธิภาพเอาไว้ได้ มันสามารถรันบนจีพียูราคาถูกลงมา ช่วยลดต้นทุนลงได้เทียบกับโมเดล LLM แบบดั้งเดิม (ในงานตัวเดียวกัน ใช้แรม 15GB เทียบกับโมเดล Granite 3.3 ตัวเดิมที่ใช้แรม 90GB ลดลง 6 เท่า)
ผลการทดสอบ Granite 4.0 สามารถเอาชนะโมเดลไซส์เล็ก (นับตามพารามิเตอร์) ระดับใกล้ๆ กันอย่าง Qwen3, Mitral-Small, Llama-3.1-8B ได้โดยใช้แรมน้อยกว่ากันมาก และหากไปเทียบกับโมเดลรุ่นใหญ่ๆ อย่าง GPT-4o นั้นมีต้นทุนค่ารันน้อยกว่ากันเกือบ 100 เท่าเลยทีเดียว
โมเดลตระกูล Granite 4.0 ตอนนี้มีด้วยกัน 4 เวอร์ชันย่อยคือ
- Granite-4.0-H-Small ขนาดพารามิเตอร์ 32B (active 9B) โมเดลตัวหลัก เน้นประสิทธิภาพสูง ราคาถูก
- Granite-4.0-H-Tiny ขนาดพารามิเตอร์ 7B (active 1B)
- Granite-4.0-H-Micro ขนาดพารามิเตอร์ 3B
- Granite-4.0-Micro ขนาดพารามิเตอร์ 3B มีเฉพาะสถาปัตยกรรม transformer เอาไว้รองรับงานที่ยังไม่รองรับโมเดลไฮบริด
โมเดล Granite 4.0 เปิดเป็น open weight สามารถรันได้บนไลบรารียอดนิยมอย่าง vLLM, Hugging Face Transformers แบบเต็มประสิทธิภาพ ส่วนบน llama.cpp และ MLX รันได้แต่ยังต้องปรับแต่งประสิทธิภาพต่อ
ที่มา - IBM
mk Fri, 03/10/2025 - 21:01
Continue reading...