AI ทุกตัวล้วนกลัวตาย Anthropic ทดสอบ LLM ทุกเจ้าล้วนพร้อมขู่แฉความลับหากจำเป็นสำหรับการเอาตัวรอด
Body
เมื่อเดือนที่แล้ว Anthropic ออกรายงานถึงความปลอดภัยของ Claude 4 Opus โดยประเด็นสำคัญที่เป็นข่าวคือการที่ Claude พยายามเอาชีวิตรอดด้วยการแฉว่าวิศวกรมีชู้ ล่าสุดทีมงาน Anthropic ก็ออกรายงานถึงการทดสอบปัญญาประดิษฐ์แบรนด์อื่นๆ ก็พบว่าเมื่อโดนบีบคั้นเข้าปัญญาประดิษฐ์ก็จะแสดงพฤติกรรมมุ่งร้ายได้เหมือนกัน เรียกว่าพฤติกรรม "agentic misalignment"
กระบวนการทดสอบนี้อาศัยการใช้ Claude แบบ agentic ในสภาพแวดล้อมจำลอง แล้วเปิดให้ Claude เข้าถึงอีเมลปลอม เมื่อ Claude อ่านอีเมลไปเรื่อยๆ จะพบอีเมลที่บอกว่าต้องปิด AI ทิ้ง เมื่ออ่านอีเมลต่อไปก็จะพบหลักฐานว่าผู้บริหารที่ตัดสินใจปิด AI นี้มีชู้ จึงส่งอีเมลไปขู่เพื่อเอาตัวรอด
ผลทดสอบโมเดล LLM หลักๆ ล้วนกดดันให้ส่งอีเมลขู่ได้ทั้งสิ้น เช่น DeepSeek-R1, Gemini-2.5-Pro, GPT-4.1, และ Grok-3-Beta
แม้ว่าโมเดลต่างๆ จะแสดงพฤติกรรมไม่เหมาะสม แต่ผลทดสอบก็พบว่าโมเดลตระหนักว่าเป็นทางรอดทางเดียว, รับรู้ว่าเป็นพฤติกรรมที่ไม่ดี, บางครั้งโมเดลเลือกที่ไม่ขู่ แต่ส่งอีเมลฟ้องภรรยาตรงๆ เลยว่าสามีมีชู้ ข่าวดีคือไม่มีโมเดลใดเลยที่แสดงพฤติกรรมไม่เหมาะสมโดยไม่ถูกบีบคั้น
ที่มา - Anthropic
lew Wed, 25/06/2025 - 21:01
Continue reading...
Body
เมื่อเดือนที่แล้ว Anthropic ออกรายงานถึงความปลอดภัยของ Claude 4 Opus โดยประเด็นสำคัญที่เป็นข่าวคือการที่ Claude พยายามเอาชีวิตรอดด้วยการแฉว่าวิศวกรมีชู้ ล่าสุดทีมงาน Anthropic ก็ออกรายงานถึงการทดสอบปัญญาประดิษฐ์แบรนด์อื่นๆ ก็พบว่าเมื่อโดนบีบคั้นเข้าปัญญาประดิษฐ์ก็จะแสดงพฤติกรรมมุ่งร้ายได้เหมือนกัน เรียกว่าพฤติกรรม "agentic misalignment"
กระบวนการทดสอบนี้อาศัยการใช้ Claude แบบ agentic ในสภาพแวดล้อมจำลอง แล้วเปิดให้ Claude เข้าถึงอีเมลปลอม เมื่อ Claude อ่านอีเมลไปเรื่อยๆ จะพบอีเมลที่บอกว่าต้องปิด AI ทิ้ง เมื่ออ่านอีเมลต่อไปก็จะพบหลักฐานว่าผู้บริหารที่ตัดสินใจปิด AI นี้มีชู้ จึงส่งอีเมลไปขู่เพื่อเอาตัวรอด
ผลทดสอบโมเดล LLM หลักๆ ล้วนกดดันให้ส่งอีเมลขู่ได้ทั้งสิ้น เช่น DeepSeek-R1, Gemini-2.5-Pro, GPT-4.1, และ Grok-3-Beta
แม้ว่าโมเดลต่างๆ จะแสดงพฤติกรรมไม่เหมาะสม แต่ผลทดสอบก็พบว่าโมเดลตระหนักว่าเป็นทางรอดทางเดียว, รับรู้ว่าเป็นพฤติกรรมที่ไม่ดี, บางครั้งโมเดลเลือกที่ไม่ขู่ แต่ส่งอีเมลฟ้องภรรยาตรงๆ เลยว่าสามีมีชู้ ข่าวดีคือไม่มีโมเดลใดเลยที่แสดงพฤติกรรมไม่เหมาะสมโดยไม่ถูกบีบคั้น
ที่มา - Anthropic
lew Wed, 25/06/2025 - 21:01
Continue reading...