แอปเปิลปล่อยโมเดล FastVLM ปัญญาประดิษฐ์อ่านภาพความเร็วสูง รันในโทรศัพท์ได้ในตัว
Body
แอปเปิลปล่อยโมเดลปัญญาประดิษฐ์ FastVLM ประกอบไปด้วยโมเดล 6 รุ่นย่อย โดยความสามารถพิิเศษคือความเร็วในการรันสูงขึ้นมากเพราะสถาปัตยกรรม FastViHD ที่เป็น encoder ของปัญญาประดิษฐ์อ่านภาพ มีความเร็วในการอ่านภาพดีกว่าสถาปัตยกรรมอื่นๆ มากโดยเฉพาะในภาพขนาดใหญ่
ตัวโมเดลที่ปล่อยออกมาพัฒนาจากโมเดลที่มีอยู่แล้วในตลาด เช่น LLaVA-OneVision เมื่อแปลงเป็น FastVLM แล้วระยะเวลาเริ่มตอบคำตอบแรก (time-to-first-token - TTFT) เร็วขึ้น 85 เท่าตัว ละอัตราการอ่านภาพรวมเร็วขึ้น 3.4 เท่าตัว หรือโมเดลขนาด 7B พัฒนาจาก Qwen2-7B ก็มีระยะเวลาเริ่มตอบเร็วขึ้น 7.9 เท่าตัว
แม้งานหลักๆ จะเป็นการเปลี่ยน encoder ฝั่งภาพเท่านั้นแต่คงสถาปัตยกรรมเดิมไว้ แต่ผลทดสอบนอกจากเรื่องของความเร็ว FastVLM ก็ยังทำคะแนนทดสอบได้ดีกว่าโมเดลเดิมหลายชุด
โมเดลทั้งหมดสามารถรันโดยใช้ PyTorch หรือ export ไปรันบน MLX บนชิป Apple Silicon ได้
ที่มา - apple/ml-fastvlm
lew Wed, 05/14/2025 - 08:09
Continue reading...
Body
แอปเปิลปล่อยโมเดลปัญญาประดิษฐ์ FastVLM ประกอบไปด้วยโมเดล 6 รุ่นย่อย โดยความสามารถพิิเศษคือความเร็วในการรันสูงขึ้นมากเพราะสถาปัตยกรรม FastViHD ที่เป็น encoder ของปัญญาประดิษฐ์อ่านภาพ มีความเร็วในการอ่านภาพดีกว่าสถาปัตยกรรมอื่นๆ มากโดยเฉพาะในภาพขนาดใหญ่
ตัวโมเดลที่ปล่อยออกมาพัฒนาจากโมเดลที่มีอยู่แล้วในตลาด เช่น LLaVA-OneVision เมื่อแปลงเป็น FastVLM แล้วระยะเวลาเริ่มตอบคำตอบแรก (time-to-first-token - TTFT) เร็วขึ้น 85 เท่าตัว ละอัตราการอ่านภาพรวมเร็วขึ้น 3.4 เท่าตัว หรือโมเดลขนาด 7B พัฒนาจาก Qwen2-7B ก็มีระยะเวลาเริ่มตอบเร็วขึ้น 7.9 เท่าตัว
แม้งานหลักๆ จะเป็นการเปลี่ยน encoder ฝั่งภาพเท่านั้นแต่คงสถาปัตยกรรมเดิมไว้ แต่ผลทดสอบนอกจากเรื่องของความเร็ว FastVLM ก็ยังทำคะแนนทดสอบได้ดีกว่าโมเดลเดิมหลายชุด
โมเดลทั้งหมดสามารถรันโดยใช้ PyTorch หรือ export ไปรันบน MLX บนชิป Apple Silicon ได้
ที่มา - apple/ml-fastvlm
lew Wed, 05/14/2025 - 08:09
Continue reading...