ตัวแก้ไขธีม

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

ข่าว แอปเปิลพบ LLM ฝึกด้วยคำตอบของตัวเองแล้วเก่งขึ้นมาก

News 

Active member
สมาชิกทีมงาน
Moderator
Distributor
เจ้าของกระทู้
แอปเปิลพบ LLM ฝึกด้วยคำตอบของตัวเองแล้วเก่งขึ้นมาก
Body

ทีมวิจัยของแอปเปิลรายงานถึงแนวทางการฝึกโมเดลปัญญาประดิษฐ์แบบ LLM ด้วยเทคนิค simple self-distillation (SSD) ที่เป็นการนำเอาคำตอบเดิมของโมเดลเอง มาฝึกกับตัวเอง ทำให้ไม่จำเป็นต้องใช้ข้อมูลฝึกจากโมเดลขนาดใหญ่กว่า หรือฝึกแบบตรวจคำตอบไปด้วย (เช่น การรันผลทดสอบโปรแกรมที่ได้)

รายงานทดลองแนวคิดด้วยการฝึกโมเดล Qwen3-4B และ Qwen3-30B มาทำโจทย์จากชุดทดสอบ rSTARcoder จำนวน 10,000 ข้อ กรองคำตอบผิดพลาดอย่างง่าย เช่น คำตอบสั้นมากๆ หรือไม่มีคำตอบเลย จากนั้นนำเอาต์พุตมาฝึกย้อนเข้าไปในตัวโมเดลเอง แล้วนำโมเดลที่ฝึกแล้วไปวัดผลด้วย LiveCodeBench v6 ผลพบว่าโมเดลที่ฝึกทำคะแนนได้ดีขึ้นอย่างชัดเจน เช่น Qwen3-30B-Instruct ทำคะแนนดีขึ้นถึง 13%

แนวคิดการฝึกด้วยผลลัพธ์ของตัวเองแต่ยังได้ผลการทำงานที่ดีขึ้นเช่นนี้เป็นเรื่องค่อนข้างแปลก เพราะโมเดลถูกย้ำให้ตอบคำตอบเดิมที่เคยตอบได้อยู่แล้ว

ทีมวิจัยระบุว่าที่ SSD ช่วยปรับปรุงคุณภาพโมเดลได้เพราะในการสร้างโทเค็นจริง แต่ละโทเค็นทำหน้าที่ต่างกัน กระบวนการสร้างโทเค็นบางอันต้องการคำตอบที่ถูกต้องหนึ่งเดียว ขณะที่บางโทเค็นต้องการทางเลือกที่หลากหลาย เรียกว่า Precision-Exploration Conflict การฝึกแบบ SSD ช่วยย้ำตัวเลือกที่ต้องการความหลากหลายให้มีน้ำหนักสูงขึ้น ขณะที่โทเค็นที่ต้องการความแม่นยำก็ไปลดน้ำหนักของตัวเลือกอื่นๆ ลง

แนวทางนี้แสดงให้เห็นว่ากระบวนการฝึกโมเดลปัญญาประดิษฐ์ LLM ยังรีดประสิทธิภาพโมเดลออกมาได้อีกแม้ไม่มีข้อมูลฝึกเพิ่มเติม ในอนาคตเราอาจจะเห็นการฝึกแนวนี้เป็นขั้นตอนมาตรฐานต่อไป

ที่มา - ArXiv: Embarrassingly Simple Self-Distillation Improves Code Generation

lew Mon, 06/04/2026 - 14:33

Continue reading...
 


กลับ
ยอดนิยม ด้านล่าง