news กูเกิลเปิดโครงการ LiteRT-LM รัน Gemma3 บนเครื่องผู้ใช้ได้ทุกที่

News · Thursday at 9:56 AM

กูเกิลเปิดโครงการ LiteRT-LM รัน Gemma3 บนเครื่องผู้ใช้ได้ทุกที่
Body

กูเกิลเปิดตัว LiteRT-LM ไลบรารีภาษา C++ สร้างต่อจากไลบรารี LiteRT (ชื่อเดิม TensorFlow Lite) แต่ออกแบบให้ใช้รันโมเดลภาษาโดยเฉพาะ

LiteRT-LM กำหนดฟอร์แมตสำหรับโมเดล LLM แบบใหม่เป็นไฟล์ .litertlm โดยตอนนี้มีเพียง Gemma3 1B และ Gemma3n เท่านั้น เป้าหมายของการพัฒนาคือการรองรับการรันโมเดลเดียวกันในทุกที่ ตั้งแต่แอนดรอยด์, เดสก์ทอปทั้งวินโดวส์, แมค, และลินุกซ์ โดยตอนนี้สามารถใช้งานได้แล้วหากรันด้วยซีพียู ทางทีมงานมีแผนจะซัพพอร์ตจีพียูบนทุกแพลตฟอร์มต่อไป

ทีมงานทดสอบประสิทธิภาพการรัน LLM ด้วย Macbook Pro M3 และ Samsung S24 Ultra แสดงให้เห็นว่าสามารถรัน Gemma3 1B ที่ความเร็วระดับใช้งานได้จริง (44-67 token/s) และยังสามารถรัน Gemma3n E4B ในระดับยอมรับได้

ตัว API เปิดให้ผู้ใช้สามารถควบคุมการทำงานได้ละเอียดกว่าปกติ โดยสามารถสั่ง Prefill พรอมพ์เดิมเพื่อดึงเอาสถานะภายใน LLM มาเก็บไว้ก่อนได้ จากนั้นจึงค่อยรัน Decode เพื่อขอคำตอบจาก LLM โดยการรัน Prefill เร็วกว่า Decode อยู่ 6-60 เท่าตัว

ก่อนหน้านี้กูเกิลมี MediaPipe GenAI ที่เป็นไลบรารีแบบเดียวกันอยู่ก่อนแล้ว แต่แผนการของกูเกิลคือจะพัฒนา LiteRT-LM จนเสร็จ แล้วย้ายการทำงานของ MediaPipe ภายในมาใช้งาน LiteRT-LM ในที่สุด

ที่มา - LiteRT-LM

lew Thu, 12/06/2025 - 07:42

Continue reading...