news Meta เปิดโมเดล V-JEPA 2 ปัญญาประดิษฐ์เข้าใจโลก ใช้ควบคุมหุ่นยนต์

News · Thursday at 9:56 AM

Meta เปิดโมเดล V-JEPA 2 ปัญญาประดิษฐ์เข้าใจโลก ใช้ควบคุมหุ่นยนต์
Body

Meta เปิดตัวโมเดลปัญญาประดิษฐ์ Meta Video Joint Embedding Predictive Architecture 2 (V-JEPA 2) เป็นโมเดลรับภาพที่สามารถทำความเข้าใจโลกกายภาพ (physical world) ได้ เปิดทางให้ปัญญาประดิษฐ์สามารถควบคุมหุ่นยนต์และทำนายผลของการกระทำต่างๆ ที่ไม่ต้องฝึกเป็นการเฉพาะไว้ก่อน

ตัวอินพุตของ V-JEPA 2 เป็นวิดีโอเหตุการณ์ต่างๆ จากนั้นสามารถทำนายเหตุการณ์ต่อไปได้ว่าจะเกิดอะไรขึ้น โดยกระบวนการฝึกใช้วิดีโอความยาว 1 ล้านชั่วโมงเพื่อฝึกด้วยการใส่วิดีโอเหตุการณ์เริ่มต้นเข้าไปและพยายามให้ V-JEPA 2 ทำนายเหตุการณ์ต่อมา

การฝึกโมเดลแบ่งออกเป็นสองช่วง ช่วงแรกเป็นวิดีโอทั่วไปเพื่อให้ตัวปัญญาประดิษฐ์เข้าใจโลก แต่หลังจากนั้นทีมงานก็พยายามนำโมเดลมาใช้กับหุ่นยนต์เป็นหลัก จึงฝึกกับชุดข้อมูลควบคุมหุ่นยนต์อีก 62 ชั่วโมง ได้โมเดลที่สามารถควบคุมหุ่นยนต์ให้ทำงานต่างๆ แม้จะไม่เคยเห็นตัวอย่างมาก่อนในชุดข้อมูลฝึกก็ตามที

แนวทางการใช้งาน V-JEPA ซับซ้อนเล็กน้อยเนื่องจากไม่ใช่ปัญญาประดิษฐ์ควบคุมหุ่นยนต์โดยตรง ทีมงานสาธิตการใช้งานด้วยการใส่ภาพหุ่นยนต์เริ่มต้น และผลที่ต้องการ จากให้ตัวเลือกการกระทำระหว่างทางเพื่อไปถึงเป้าหมาย V-JEPA 2 จะเลือกการกระทำต่างๆ เพื่อให้บรรลุเป้าหมายได้ 65-80%

ทาง Meta ปล่อย V-JEPA 2 พร้อมกับชุดข้อมูลทดสอบปัญญาประดิษฐ์ในโลกกายภาพมาอีก 3 ชุดพร้อมกัน ได้แก่ IntPhys 2 สำหรับทำนายว่าเหตุการณ์ใดเป็นไปได้หรือเป็นไปไม่ได้, Minimal Video Pairs (MVPBench) สำหรับการประมวลผลวิดีโอควบคู่กับคำสั่งหรือคำถามที่เป็นข้อความ, และ CausalVQA ชุดคำถามตอบสำหรับวิดีโอ

ที่มา - Meta AI

lew Thu, 12/06/2025 - 08:05

Continue reading...