ข่าว xAI เปิดตัว Grok-1.5 Vision โมเดล AI Multimodal รองรับอินพุทรูปภาพ

News · 14 เมษา 2024

xAI บริษัทด้านปัญญาประดิษฐ์ของ Elon Musk พรีวิวความสามารถของ Grok-1.5 Vision โมเดล AI ภาษาขนาดใหญ่บนข้อมูลสื่อผสม (Multimodal) หลังจากเปิดตัว Grok-1.5 ไปเมื่อเดือนที่แล้ว

Grok-1.5V มีความสามารถรับอินพุทและดำเนินการข้อมูลภาพในรูปแบบต่าง ๆ เช่น เอกสาร, แผนผัง, ตาราง, ภาพหน้าจอ ไปจนถึงภาพถ่าย ผลทดสอบเทียบกับโมเดลข้อมูลสื่อผสมตัวอื่นพบว่าทำได้ใกล้เคียง โดยโดดเด่นกว่าในบางผลทดสอบเช่น Mathvista (คณิตศาสตร์), TextVQA (อ่านข้อความ)

xAI ยังนำเสนอตัวทดสอบความสามารถโมเดล AI ที่ใช้อินพุทภาพใหม่คือ RealWorldQA มีเป้าหมายเพื่อทดสอบว่า AI สามารถเข้าใจสถานการณ์ในชีวิตประจำวันผ่านภาพที่เห็นได้ดีแค่ไหน ซึ่งหลายปัญหาไม่ใช่เรื่องยากสำหรับมนุษย์ แต่เมื่อเป็น AI แล้ว อาจซับซ้อนมาก โดยเผยแพร่ภายใต้สัญญา CC BY-ND 4.0 ให้ไปใช้งานได้ และการทดสอบ Grok-1.5V กับ RealWorldQA ก็ได้คะแนนสูงสุดเช่นกัน

สถานะของ Grok-1.5V ยังเป็นพรีวิว จะเปิดให้ใช้งานทั่วไปเร็ว ๆ นี้ เฉพาะกลุ่มผู้ทดสอบชุดแรกและผู้ใช้งาน Grok

ที่มา: xAI

ผลทดสอบเทียบกับโมเดลอื่น

ตัวอย่างการอธิบายข้อมูลจากรูปภาพ

ตัวอย่างการทดสอบปัญหาในชีวิตประจำวันของ RealWorldQA

Topics:
xAI
Artificial Intelligence

อ่านต่อ...

ข่าว xAI เปิดตัว Grok-1.5 Vision โมเดล AI Multimodal รองรับอินพุทรูปภาพ

News

Similar threads

เราให้ความสําคัญกับความเป็นส่วนตัวของคุณ