Theme editor



พวกเราจะตกงานกันหรือยัง OpenAI เปิดชุดทดสอบ SWE-Lancer ทดสอบปัญหาเขียนโปรแกรมที่มีการจ้างจริง รวมค่าจ้าง 1 ล้านดอลลาร์

news พวกเราจะตกงานกันหรือยัง OpenAI เปิดชุดทดสอบ SWE-Lancer ทดสอบปัญหาเขียนโปรแกรมที่มีการจ้างจริง รวมค่าจ้าง 1 ล้านดอลลาร์

News News is verified member.

Active member
Staff member
Moderator
Distributor
Thread owner
OpenAI เปิดตัวชุดทดสอบ SWE-Lancer เป็นชุดทดสอบที่ได้จากงานเขียนโปรแกรม 1,488 งานบนแพลตฟอร์ม Upwork ปัญหาแต่ละข้อมีค่าจ้างระหว่าง 50-32,000 ดอลลาร์ รวมชุดทดสอบมีค่าจ้าง 1 ล้านดอลลาร์ เมื่อ AI แก้ปัญหาได้ จะได้คะแนนเป็นค่าจ้างของแต่ละข้อไป

จากปัญหารวมที่ให้มา 1 ล้านดอลลาร์ ทำค่าจ้างเฉพาะชุดทดสอบย่อย IC SWE ที่เน้นงานเขียนโปรแกรม คะแนนเต็ม 236,000 ดอลลาร์ ตอนนี้โมเดลที่ทำคะแนนได้สูงสุดคือ o3-high ที่เปิดตัวมาวันนี้ ได้ 65,250 ดอลลาร์ ขณะที่ o4-mini-high ทำค่าจ้างได้ 56,375 ดอลลาร์ สูงกว่า o1-high สองเท่าตัว โดยชุดทดสอบนี้ปัญญาประดิษฐ์ยังทำได้ห่างจากคะแนนเต็มมาก จึงเป็นชุดทดสอบที่น่าจะแสดงให้เห็นพัฒนาการของ AI ต่อไปในอนาคต เทียบกับ SWE-Bench Verified ที่ตอนนี้ o3 ทำคะแนนได้ 69.1% แล้ว น่าสนใจคือผลทดสอบของ Claude 3.5 ได้คะแนนถึง 58,000 ดอลลาร์ สูงกว่า o4-mini-high เสียอีก เมื่อแยกส่วนต่างๆ ยังแสดงให้เหฌ็นว่าปัญญาประดิษฐ์ทุกตัวทำงาน backend ได้ดีมาก แต่คะแนนด้าน UX/UI กล้บแย่มาก

ชุดทดสอบอยู่ใน GitHub ตอนนี้ข้อจำกัดคือยังไม่รองรับ multimodal ทำให้ยังไม่เห็นภาพประกอบ

ที่มา - ArXiV

พวกเราจะตกงานกันหรือยัง OpenAI เปิดชุดทดสอบ SWELancer ทดสอบปัญหาเขียนโปรแกรมที่มีการจ้างจริง ...webp

Topics:
OpenAI
LLM

Continue reading...
 




Back
Top Bottom