โครงการ Ollama รองรับ MLX ทำงานเร็วขึ้นเท่าตัว ใช้ NVFP4 ได้ด้วย
Body
Ollama โครงการซอฟต์แวร์รัน LLM บนพีซียอดนิยมออกเวอร์ชั่น 0.19 มีความเปลี่ยนแปลงสำคัญคือรองรับเฟรมเวิร์ค MLX ที่ใช้สำหรับการรันปัญญาประดิษฐ์บนชิป Apple Silicon อย่างเป็นทางการ ทำให้ความเร็วในการรันสูงขึ้นมาก นอกจากนี้ยังรองรับโมเดลที่ quantize แบบ NVFP4 ที่เร่งความเร็วโดยเสียความแม่นยำน้อยลงด้วย
ทางโครงการทดสอบ Qwen3.5-35B-A3B แบบ NVFP4 บนชิป M5 พบว่ารัน prefill (ประมวลผลพรอมพ์) ได้ 1810 โทเค็นต่อวินาที เร็วขึ้น 57% ขณะที่การรัน decode ได้ 112 โทเค็นต่อวินาทีเร็วขึ้น 93% หรือเกือบเท่าตัว ทีมงานระบุว่าหากรันแบบ INT4 จะเร็วกว่านี้ขึ้นอีก
NVFP4 เป็นฟอร์แมตเลขทศนิยมแบบ 4-bit ของ NVIDIA โดยออกแบบให้ใช้เลขเพียง 4 บิตแต่มีเลข FP8 อีกหนึ่งค่าเพื่อ scale ค่าออกมาให้ตัวเลข 4-bit ใช้แสดงค่าได้ตรงมากขึ้น
ที่มา - Ollama
lew Wed, 01/04/2026 - 12:01
Continue reading...
Body
Ollama โครงการซอฟต์แวร์รัน LLM บนพีซียอดนิยมออกเวอร์ชั่น 0.19 มีความเปลี่ยนแปลงสำคัญคือรองรับเฟรมเวิร์ค MLX ที่ใช้สำหรับการรันปัญญาประดิษฐ์บนชิป Apple Silicon อย่างเป็นทางการ ทำให้ความเร็วในการรันสูงขึ้นมาก นอกจากนี้ยังรองรับโมเดลที่ quantize แบบ NVFP4 ที่เร่งความเร็วโดยเสียความแม่นยำน้อยลงด้วย
ทางโครงการทดสอบ Qwen3.5-35B-A3B แบบ NVFP4 บนชิป M5 พบว่ารัน prefill (ประมวลผลพรอมพ์) ได้ 1810 โทเค็นต่อวินาที เร็วขึ้น 57% ขณะที่การรัน decode ได้ 112 โทเค็นต่อวินาทีเร็วขึ้น 93% หรือเกือบเท่าตัว ทีมงานระบุว่าหากรันแบบ INT4 จะเร็วกว่านี้ขึ้นอีก
NVFP4 เป็นฟอร์แมตเลขทศนิยมแบบ 4-bit ของ NVIDIA โดยออกแบบให้ใช้เลขเพียง 4 บิตแต่มีเลข FP8 อีกหนึ่งค่าเพื่อ scale ค่าออกมาให้ตัวเลข 4-bit ใช้แสดงค่าได้ตรงมากขึ้น
ที่มา - Ollama
lew Wed, 01/04/2026 - 12:01
Continue reading...