Google เปิดตัว Game Arena การทดสอบความเก่งของโมเดล AI ด้วยการเล่นเกม เริ่มด้วยศึกหมากรุกของ 8 โมเดล LLM ยอดนิยม
Body
กูเกิลเปิดตัวแพลตฟอร์มสำหรับทดสอบความสามารถโมเดลปัญญาประดิษฐ์แบบเปิดเผยต่อสาธารณะ ด้วยการเล่นเกมแข่งกัน Kaggle Game Arena ซึ่งเป็นความร่วมมือของ DeepMind แผนกปัญญาประดิษฐ์ของกูเกิล และ Kaggle ชุมชน Data Science ที่เป็นหน่วยงานของกูเกิลเช่นกัน
กูเกิลอธิบายว่ารูปแบบการทดสอบความสามารถโมเดล AI ปัจจุบันมักจำกัดเฉพาะหัวข้อ แม้โมเดล AI จะทำคะแนนได้สูงก็ไม่สามารถพิสูจน์ได้ชัดว่าคิดเองหรือจำคำตอบมา แนวทางของกูเกิลคือสร้างรูปแบบทดสอบที่สะท้อนว่าโมเดลสามารถคิดได้รอบด้านขึ้นจริง มีสภาพแวดล้อมของคำถามที่ไม่ตายตัว มีเป้าหมายที่ปรับได้ตลอด เป็นการทดสอบความคิดวางแผนระยะยาว การวัดผลด้วยเกมจึงตอบโจทย์เรื่องนี้
โมเดลที่ใช้สำหรับทดสอบใน Game Arena จะเป็นโมเดลภาษาขนาดใหญ่ LLM เท่านั้น ไม่มีการใช้โมเดลที่ปรับแต่งสำหรับการเล่นเกมนั้นโดยเฉพาะแบบ AlphaZero เพื่อวัดความเก่งรอบด้านอย่างแท้จริง
การแข่งขันแรกใน Game Arena เป็นศึกหมากรุกสากล (Chess) มี 8 โมเดลที่ทำการทดสอบ ได้แก่ DeepSeek R1, o4-Mini, Gemini 2.5 Pro, Claude Opus 4, Grok 4, Gemini 2.5 Flash, Kimi-K2 และ o3 ใช้ระบบแพ้คัดออก แข่งขันเป็นเวลา 3 วัน เริ่มคู่แรก 00:30น. วันที่ 6 สิงหาคม
ที่มา: กูเกิล
arjin Tue, 05/08/2025 - 12:22
Continue reading...
Body
กูเกิลเปิดตัวแพลตฟอร์มสำหรับทดสอบความสามารถโมเดลปัญญาประดิษฐ์แบบเปิดเผยต่อสาธารณะ ด้วยการเล่นเกมแข่งกัน Kaggle Game Arena ซึ่งเป็นความร่วมมือของ DeepMind แผนกปัญญาประดิษฐ์ของกูเกิล และ Kaggle ชุมชน Data Science ที่เป็นหน่วยงานของกูเกิลเช่นกัน
กูเกิลอธิบายว่ารูปแบบการทดสอบความสามารถโมเดล AI ปัจจุบันมักจำกัดเฉพาะหัวข้อ แม้โมเดล AI จะทำคะแนนได้สูงก็ไม่สามารถพิสูจน์ได้ชัดว่าคิดเองหรือจำคำตอบมา แนวทางของกูเกิลคือสร้างรูปแบบทดสอบที่สะท้อนว่าโมเดลสามารถคิดได้รอบด้านขึ้นจริง มีสภาพแวดล้อมของคำถามที่ไม่ตายตัว มีเป้าหมายที่ปรับได้ตลอด เป็นการทดสอบความคิดวางแผนระยะยาว การวัดผลด้วยเกมจึงตอบโจทย์เรื่องนี้
โมเดลที่ใช้สำหรับทดสอบใน Game Arena จะเป็นโมเดลภาษาขนาดใหญ่ LLM เท่านั้น ไม่มีการใช้โมเดลที่ปรับแต่งสำหรับการเล่นเกมนั้นโดยเฉพาะแบบ AlphaZero เพื่อวัดความเก่งรอบด้านอย่างแท้จริง
การแข่งขันแรกใน Game Arena เป็นศึกหมากรุกสากล (Chess) มี 8 โมเดลที่ทำการทดสอบ ได้แก่ DeepSeek R1, o4-Mini, Gemini 2.5 Pro, Claude Opus 4, Grok 4, Gemini 2.5 Flash, Kimi-K2 และ o3 ใช้ระบบแพ้คัดออก แข่งขันเป็นเวลา 3 วัน เริ่มคู่แรก 00:30น. วันที่ 6 สิงหาคม
ที่มา: กูเกิล
arjin Tue, 05/08/2025 - 12:22
Continue reading...