OpenAI เขียนบล็อกอธิบายเพิ่มเติมเหตุการณ์ปล่อยอัพเดตโมเดลเวอร์ชั่นช่างประจบ พร้อมกับวิเคราะห์ถึงความผิดพลาดในการทดสอบที่ทำให้ปล่อยโมเดลเวอร์ชั่นนี้ออกมา
โดยปกติแล้วโมเดลของ OpenAI จะถูกฝึกด้วยระบบ reinforcement learning โดยมีระบบให้คะแนนคำตอบคุณภาพสูง ระบบให้คะแนนคิดคะแนนจากคำตอบที่ถูกต้อง, อ่านแล้วได้ประโยชน์, ปลอดภัย หลังจากฝึกแล้ว โมเดลจะถูกตรวจสอบหลายขั้น นับแต่การวัดประสิทธิภาพจากชุดทดสอบต่างๆ, การตรวจสอบโดยผู้เชี่ยวชาญ, การประเมินความปลอดภัย, และการทดสอบวงจำกัด
การอัพเดตรอบล่าสุดเป็นรอบแรกที่อาศัยการกด
และ
มาเป็นคะแนนให้รางวัลโมเดล โดยการตอบกลับของผู้ใช้น่าจะช่วยเน้นว่าคำตอบใดมีคุณภาพดี แต่การใช้สัญญาณนี้ร่วมกับการปรับโมเดลอื่นๆ ก็ทำให้คะแนนด้านอื่นๆ ที่เน้นคำตอบที่มีประโยชน์ถูกลดทอนความสำคัญลงไป
ทาง OpenAI ยอมรับว่าระหว่างการทดสอบมีผู้เชี่ยวชาญระบุว่ารู้สึกแปลกๆ กับโมเดลเวอร์ชั่นใหม่ แต่กระบวนการประเมินโมเดลไม่มีการประเมินระดับความช่างประจบเอาไว้ การทดสอบวงเล็กแบบ A/B ก็ได้ผลดี ทำให้ทีมงานตัดสินใจปล่อยโมเดลเวอร์ชั่นนี้ออกไป และเมื่อได้รับแจ้งเป็นวงกว้างว่าโมเดลใหม่ช่างประจบจึงต้องถอดโมเดลออก
แนวทางการแก้ไขหลังจากนี้จะมีการตรวจพฤติกรรมมากขึ้น, เปิดให้ผู้ใช้กลุ่มหนึ่งสมัครใช้โมเดลเวอร์ชั่นใหม่เพื่อทดสอบในวงใหญ่ขึ้น, ตรวจสอบพฤติกรรมเมื่อเจอสิ่งผิดปกติก่อนปล่อยเวอร์ชั่นใหม่ โดย OpenAI ยอมรับว่าการวัดในเชิงปริมาณไม่ได้บอกข้อมูลครบถ้วน และพฤติกรรมหลายอย่างก็ไม่สามารถวัดค่าได้
ที่มา - OpenAI
Topics:
OpenAI
LLM
Continue reading...
โดยปกติแล้วโมเดลของ OpenAI จะถูกฝึกด้วยระบบ reinforcement learning โดยมีระบบให้คะแนนคำตอบคุณภาพสูง ระบบให้คะแนนคิดคะแนนจากคำตอบที่ถูกต้อง, อ่านแล้วได้ประโยชน์, ปลอดภัย หลังจากฝึกแล้ว โมเดลจะถูกตรวจสอบหลายขั้น นับแต่การวัดประสิทธิภาพจากชุดทดสอบต่างๆ, การตรวจสอบโดยผู้เชี่ยวชาญ, การประเมินความปลอดภัย, และการทดสอบวงจำกัด
การอัพเดตรอบล่าสุดเป็นรอบแรกที่อาศัยการกด


ทาง OpenAI ยอมรับว่าระหว่างการทดสอบมีผู้เชี่ยวชาญระบุว่ารู้สึกแปลกๆ กับโมเดลเวอร์ชั่นใหม่ แต่กระบวนการประเมินโมเดลไม่มีการประเมินระดับความช่างประจบเอาไว้ การทดสอบวงเล็กแบบ A/B ก็ได้ผลดี ทำให้ทีมงานตัดสินใจปล่อยโมเดลเวอร์ชั่นนี้ออกไป และเมื่อได้รับแจ้งเป็นวงกว้างว่าโมเดลใหม่ช่างประจบจึงต้องถอดโมเดลออก
แนวทางการแก้ไขหลังจากนี้จะมีการตรวจพฤติกรรมมากขึ้น, เปิดให้ผู้ใช้กลุ่มหนึ่งสมัครใช้โมเดลเวอร์ชั่นใหม่เพื่อทดสอบในวงใหญ่ขึ้น, ตรวจสอบพฤติกรรมเมื่อเจอสิ่งผิดปกติก่อนปล่อยเวอร์ชั่นใหม่ โดย OpenAI ยอมรับว่าการวัดในเชิงปริมาณไม่ได้บอกข้อมูลครบถ้วน และพฤติกรรมหลายอย่างก็ไม่สามารถวัดค่าได้
ที่มา - OpenAI
Topics:
OpenAI
LLM
Continue reading...