แอปเปิลสำรวจความคิดของ AI แบบคิดก่อนตอบ หากเจอปัญหาไม่เคยเจอจะคิดมั่ว แสดงว่าแค่จำรูปแบบ ไม่ได้คิดจริง
Body
ทีมวิจัยแอปเปิลรายงานถึงผลสำรวจโมเดลปัญญาประดิษฐ์แบบคิดก่อนตอบ (large reasoning model - LRM) ที่สามารถคิดทบทวนก่อนตอบคำถามได้ และเป็นเครื่องมือสำคัญที่ทำให้โมเดลปัญญาประดิษฐ์จำนวนมากทำคะแนนทดสอบได้ดีขึ้นมากในช่วงหลัง โดยพบว่า LRM มีแนวโน้มคิดผิดไปจากแนวทางที่ควรเป็น รวมถึงคิดมากเกินไปจนอาจจะแสดงให้เห็นว่าที่จริงโมเดล LRM อาจจะแค่จำรูปแบบได้เท่านั้น
งานวิจัยอาศัยการทดสอบ LRM เช่น OpenAI o1/o3, DeepSeek-R1, Claude 3.7 Thinking, และ Gemini Thinking โดยให้แก้ปัญหาที่สามารถปรับความยากได้อิสระ เช่น Tower of Hanoi (โจทย์ฝึกเขียนโปรแกรมที่หลายคนอาจจะรู้จักกันดี) จากนั้นเข้าไปดู think token ว่าโมเดลกำลังคิดอะไรอยู่ เพื่อสำรวจว่าแนวคิดไปถูกทางหรือไม่ จากนั้นค่อยๆ เพิ่มจำนวนห่วงใน Tower of Hanoi ขึ้นไปเมื่อเพิ่มความยาก
ผลทดสอบพบว่าที่ปัญหาง่ายมากๆ โมเดล LLM แบบตอบทันทีสามารถทำงานได้ดีพอๆ กับ LRM แถมประหยัดโทเค็นกว่ามาก แต่เมื่อเพิ่มความยากขึ้นไปเรื่อยๆ LRM ก็ยังตอบได้แม้จะเปลืองโทเค็นขึ้นเรื่อยๆ จนถึงความยากระดับหนึ่ง เช่น Tower of Hanoi แบบ 8 ห่วง โมเดล LRM ก็เริ่มมั่วผลอย่างชัดเจน ขณะที่ความคิดยังยาวขึ้นเรื่อยๆ
ข้อจำกัดของการแก้ปัญหาที่มีรูปแบบชัดเจนเช่นนี้แสดงให้เห็นว่าโมเดล LRM ยังไม่สามารถมองปัญหาให้อยู่ในรูปทั่วไป (generalized reasoning) ได้ ซ้ำเมื่อทีมงานให้แนวคิดแก้ปัญหาที่ถูกต้องไป LRM ก็ยังไม่สามารถทำตามได้ แต่ทำได้แค่ขั้นตอนแรกๆ เท่านั้น
ที่มา - Apple.com
lew Mon, 09/06/2025 - 11:25
Continue reading...
Body
ทีมวิจัยแอปเปิลรายงานถึงผลสำรวจโมเดลปัญญาประดิษฐ์แบบคิดก่อนตอบ (large reasoning model - LRM) ที่สามารถคิดทบทวนก่อนตอบคำถามได้ และเป็นเครื่องมือสำคัญที่ทำให้โมเดลปัญญาประดิษฐ์จำนวนมากทำคะแนนทดสอบได้ดีขึ้นมากในช่วงหลัง โดยพบว่า LRM มีแนวโน้มคิดผิดไปจากแนวทางที่ควรเป็น รวมถึงคิดมากเกินไปจนอาจจะแสดงให้เห็นว่าที่จริงโมเดล LRM อาจจะแค่จำรูปแบบได้เท่านั้น
งานวิจัยอาศัยการทดสอบ LRM เช่น OpenAI o1/o3, DeepSeek-R1, Claude 3.7 Thinking, และ Gemini Thinking โดยให้แก้ปัญหาที่สามารถปรับความยากได้อิสระ เช่น Tower of Hanoi (โจทย์ฝึกเขียนโปรแกรมที่หลายคนอาจจะรู้จักกันดี) จากนั้นเข้าไปดู think token ว่าโมเดลกำลังคิดอะไรอยู่ เพื่อสำรวจว่าแนวคิดไปถูกทางหรือไม่ จากนั้นค่อยๆ เพิ่มจำนวนห่วงใน Tower of Hanoi ขึ้นไปเมื่อเพิ่มความยาก
ผลทดสอบพบว่าที่ปัญหาง่ายมากๆ โมเดล LLM แบบตอบทันทีสามารถทำงานได้ดีพอๆ กับ LRM แถมประหยัดโทเค็นกว่ามาก แต่เมื่อเพิ่มความยากขึ้นไปเรื่อยๆ LRM ก็ยังตอบได้แม้จะเปลืองโทเค็นขึ้นเรื่อยๆ จนถึงความยากระดับหนึ่ง เช่น Tower of Hanoi แบบ 8 ห่วง โมเดล LRM ก็เริ่มมั่วผลอย่างชัดเจน ขณะที่ความคิดยังยาวขึ้นเรื่อยๆ
ข้อจำกัดของการแก้ปัญหาที่มีรูปแบบชัดเจนเช่นนี้แสดงให้เห็นว่าโมเดล LRM ยังไม่สามารถมองปัญหาให้อยู่ในรูปทั่วไป (generalized reasoning) ได้ ซ้ำเมื่อทีมงานให้แนวคิดแก้ปัญหาที่ถูกต้องไป LRM ก็ยังไม่สามารถทำตามได้ แต่ทำได้แค่ขั้นตอนแรกๆ เท่านั้น
ที่มา - Apple.com
lew Mon, 09/06/2025 - 11:25
Continue reading...