แอปเปิลพบ LLM ฝึกด้วยคำตอบของตัวเองแล้วเก่งขึ้นมาก
Body
ทีมวิจัยของแอปเปิลรายงานถึงแนวทางการฝึกโมเดลปัญญาประดิษฐ์แบบ LLM ด้วยเทคนิค simple self-distillation (SSD) ที่เป็นการนำเอาคำตอบเดิมของโมเดลเอง มาฝึกกับตัวเอง ทำให้ไม่จำเป็นต้องใช้ข้อมูลฝึกจากโมเดลขนาดใหญ่กว่า หรือฝึกแบบตรวจคำตอบไปด้วย (เช่น การรันผลทดสอบโปรแกรมที่ได้)
รายงานทดลองแนวคิดด้วยการฝึกโมเดล Qwen3-4B และ Qwen3-30B มาทำโจทย์จากชุดทดสอบ rSTARcoder จำนวน 10,000 ข้อ กรองคำตอบผิดพลาดอย่างง่าย เช่น คำตอบสั้นมากๆ หรือไม่มีคำตอบเลย จากนั้นนำเอาต์พุตมาฝึกย้อนเข้าไปในตัวโมเดลเอง แล้วนำโมเดลที่ฝึกแล้วไปวัดผลด้วย LiveCodeBench v6 ผลพบว่าโมเดลที่ฝึกทำคะแนนได้ดีขึ้นอย่างชัดเจน เช่น Qwen3-30B-Instruct ทำคะแนนดีขึ้นถึง 13%
แนวคิดการฝึกด้วยผลลัพธ์ของตัวเองแต่ยังได้ผลการทำงานที่ดีขึ้นเช่นนี้เป็นเรื่องค่อนข้างแปลก เพราะโมเดลถูกย้ำให้ตอบคำตอบเดิมที่เคยตอบได้อยู่แล้ว
ทีมวิจัยระบุว่าที่ SSD ช่วยปรับปรุงคุณภาพโมเดลได้เพราะในการสร้างโทเค็นจริง แต่ละโทเค็นทำหน้าที่ต่างกัน กระบวนการสร้างโทเค็นบางอันต้องการคำตอบที่ถูกต้องหนึ่งเดียว ขณะที่บางโทเค็นต้องการทางเลือกที่หลากหลาย เรียกว่า Precision-Exploration Conflict การฝึกแบบ SSD ช่วยย้ำตัวเลือกที่ต้องการความหลากหลายให้มีน้ำหนักสูงขึ้น ขณะที่โทเค็นที่ต้องการความแม่นยำก็ไปลดน้ำหนักของตัวเลือกอื่นๆ ลง
แนวทางนี้แสดงให้เห็นว่ากระบวนการฝึกโมเดลปัญญาประดิษฐ์ LLM ยังรีดประสิทธิภาพโมเดลออกมาได้อีกแม้ไม่มีข้อมูลฝึกเพิ่มเติม ในอนาคตเราอาจจะเห็นการฝึกแนวนี้เป็นขั้นตอนมาตรฐานต่อไป
ที่มา - ArXiv: Embarrassingly Simple Self-Distillation Improves Code Generation
lew Mon, 06/04/2026 - 14:33
Continue reading...
Body
ทีมวิจัยของแอปเปิลรายงานถึงแนวทางการฝึกโมเดลปัญญาประดิษฐ์แบบ LLM ด้วยเทคนิค simple self-distillation (SSD) ที่เป็นการนำเอาคำตอบเดิมของโมเดลเอง มาฝึกกับตัวเอง ทำให้ไม่จำเป็นต้องใช้ข้อมูลฝึกจากโมเดลขนาดใหญ่กว่า หรือฝึกแบบตรวจคำตอบไปด้วย (เช่น การรันผลทดสอบโปรแกรมที่ได้)
รายงานทดลองแนวคิดด้วยการฝึกโมเดล Qwen3-4B และ Qwen3-30B มาทำโจทย์จากชุดทดสอบ rSTARcoder จำนวน 10,000 ข้อ กรองคำตอบผิดพลาดอย่างง่าย เช่น คำตอบสั้นมากๆ หรือไม่มีคำตอบเลย จากนั้นนำเอาต์พุตมาฝึกย้อนเข้าไปในตัวโมเดลเอง แล้วนำโมเดลที่ฝึกแล้วไปวัดผลด้วย LiveCodeBench v6 ผลพบว่าโมเดลที่ฝึกทำคะแนนได้ดีขึ้นอย่างชัดเจน เช่น Qwen3-30B-Instruct ทำคะแนนดีขึ้นถึง 13%
แนวคิดการฝึกด้วยผลลัพธ์ของตัวเองแต่ยังได้ผลการทำงานที่ดีขึ้นเช่นนี้เป็นเรื่องค่อนข้างแปลก เพราะโมเดลถูกย้ำให้ตอบคำตอบเดิมที่เคยตอบได้อยู่แล้ว
ทีมวิจัยระบุว่าที่ SSD ช่วยปรับปรุงคุณภาพโมเดลได้เพราะในการสร้างโทเค็นจริง แต่ละโทเค็นทำหน้าที่ต่างกัน กระบวนการสร้างโทเค็นบางอันต้องการคำตอบที่ถูกต้องหนึ่งเดียว ขณะที่บางโทเค็นต้องการทางเลือกที่หลากหลาย เรียกว่า Precision-Exploration Conflict การฝึกแบบ SSD ช่วยย้ำตัวเลือกที่ต้องการความหลากหลายให้มีน้ำหนักสูงขึ้น ขณะที่โทเค็นที่ต้องการความแม่นยำก็ไปลดน้ำหนักของตัวเลือกอื่นๆ ลง
แนวทางนี้แสดงให้เห็นว่ากระบวนการฝึกโมเดลปัญญาประดิษฐ์ LLM ยังรีดประสิทธิภาพโมเดลออกมาได้อีกแม้ไม่มีข้อมูลฝึกเพิ่มเติม ในอนาคตเราอาจจะเห็นการฝึกแนวนี้เป็นขั้นตอนมาตรฐานต่อไป
ที่มา - ArXiv: Embarrassingly Simple Self-Distillation Improves Code Generation
lew Mon, 06/04/2026 - 14:33
Continue reading...