news พวกเราจะตกงานกันหรือยัง OpenAI เปิดชุดทดสอบ SWE-Lancer ทดสอบปัญหาเขียนโปรแกรมที่มีการจ้างจริง รวมค่าจ้าง 1 ล้านดอลลาร์

News · Apr 17, 2025

OpenAI เปิดตัวชุดทดสอบ SWE-Lancer เป็นชุดทดสอบที่ได้จากงานเขียนโปรแกรม 1,488 งานบนแพลตฟอร์ม Upwork ปัญหาแต่ละข้อมีค่าจ้างระหว่าง 50-32,000 ดอลลาร์ รวมชุดทดสอบมีค่าจ้าง 1 ล้านดอลลาร์ เมื่อ AI แก้ปัญหาได้ จะได้คะแนนเป็นค่าจ้างของแต่ละข้อไป

จากปัญหารวมที่ให้มา 1 ล้านดอลลาร์ ทำค่าจ้างเฉพาะชุดทดสอบย่อย IC SWE ที่เน้นงานเขียนโปรแกรม คะแนนเต็ม 236,000 ดอลลาร์ ตอนนี้โมเดลที่ทำคะแนนได้สูงสุดคือ o3-high ที่เปิดตัวมาวันนี้ ได้ 65,250 ดอลลาร์ ขณะที่ o4-mini-high ทำค่าจ้างได้ 56,375 ดอลลาร์ สูงกว่า o1-high สองเท่าตัว โดยชุดทดสอบนี้ปัญญาประดิษฐ์ยังทำได้ห่างจากคะแนนเต็มมาก จึงเป็นชุดทดสอบที่น่าจะแสดงให้เห็นพัฒนาการของ AI ต่อไปในอนาคต เทียบกับ SWE-Bench Verified ที่ตอนนี้ o3 ทำคะแนนได้ 69.1% แล้ว น่าสนใจคือผลทดสอบของ Claude 3.5 ได้คะแนนถึง 58,000 ดอลลาร์ สูงกว่า o4-mini-high เสียอีก เมื่อแยกส่วนต่างๆ ยังแสดงให้เหฌ็นว่าปัญญาประดิษฐ์ทุกตัวทำงาน backend ได้ดีมาก แต่คะแนนด้าน UX/UI กล้บแย่มาก

ชุดทดสอบอยู่ใน GitHub ตอนนี้ข้อจำกัดคือยังไม่รองรับ multimodal ทำให้ยังไม่เห็นภาพประกอบ

ที่มา - ArXiV

พวกเราจะตกงานกันหรือยัง OpenAI เปิดชุดทดสอบ SWELancer ทดสอบปัญหาเขียนโปรแกรมที่มีการจ้างจริง ...webp

Topics:
OpenAI
LLM

Continue reading...

Theme editor

Page Setup Appearance

Page Width

Toggle Page Width

Color Pickers

Toggle color picker

Typography

Node Layout

Enable grid layout

Styles

Languages

Style variation

News

Active member

Legal Notice