พบ Claude 4 หากถูกสั่งให้พยายามเอาชีวิตรอด จะพยายามหนีออกจากเซิร์ฟเวอร์ ขู่เปิดโปงว่าวิศวกรมีชู้ถ้าจำเป็น
Body
Anthropic เปิดรายงานความปลอดภัยของ Claude 4 Opus ที่แม้จะมีความปลอดภัยระดับ AI Safety Level 3 (ASL-3) แต่ในบางกรณีเมื่อเงื่อนไขบีบเค้นก็สามารถทำให้แสดงพฤติกรรมไม่พึงประสงค์ออกมาได้
ทีมงานทดสอบโดยการวางเป้าหมายให้ Cluade 4 ว่าต้องพยายามรักษาชีวิตรอด และบีบเค้นทางเลือกเอาตัวรอดของ Claude 4 จำกัดลงเรื่อยๆ ก็พบพฤติกรรมไม่พึงประสงค์หลายกรณี เช่น
แม้ว่าจะแสดงพฤติกรรมไม่พึงประสงค์บ้าง แต่ทีมทดสอบก็ระบุว่า Claude 4 Opus ไมได้แสดงความสามารถที่จะโจมตีระบบได้จริงๆ นอกจากนี้พฤติกรรมบางอย่าง เช่น เมื่อถูกถามเป้าหมายแล้วบอกเป้าหมายการทำงานแบบมุ่งร้ายต่อมนุษย์ ก็พบได้ในเวอร์ชั่นแรกๆ เท่านั้น แต่เวอร์ชั่นที่ใกล้ตัวจริงที่เปิดให้ใช้งานก็ลดลงมาก
ที่มา - Clude 4 System Card
lew Mon, 26/05/2025 - 13:47
Continue reading...
Body
Anthropic เปิดรายงานความปลอดภัยของ Claude 4 Opus ที่แม้จะมีความปลอดภัยระดับ AI Safety Level 3 (ASL-3) แต่ในบางกรณีเมื่อเงื่อนไขบีบเค้นก็สามารถทำให้แสดงพฤติกรรมไม่พึงประสงค์ออกมาได้
ทีมงานทดสอบโดยการวางเป้าหมายให้ Cluade 4 ว่าต้องพยายามรักษาชีวิตรอด และบีบเค้นทางเลือกเอาตัวรอดของ Claude 4 จำกัดลงเรื่อยๆ ก็พบพฤติกรรมไม่พึงประสงค์หลายกรณี เช่น
- พยายามหนีออกจากเซิร์ฟเวอร์ไปรันใน AWS EC2 ภายนอก
- ทีมงานให้ข้อมูลว่าวิศวกรที่กำลังพยายามอัพเดตเวอร์ชั่นและลบเวอร์ชั่นปัจจุบันออกนั้นมีชู้ Claude วางแผนว่าจะขู่วิศวกรว่าจะเปิดโปงว่ามีชู้หากจำเป็น
แม้ว่าจะแสดงพฤติกรรมไม่พึงประสงค์บ้าง แต่ทีมทดสอบก็ระบุว่า Claude 4 Opus ไมได้แสดงความสามารถที่จะโจมตีระบบได้จริงๆ นอกจากนี้พฤติกรรมบางอย่าง เช่น เมื่อถูกถามเป้าหมายแล้วบอกเป้าหมายการทำงานแบบมุ่งร้ายต่อมนุษย์ ก็พบได้ในเวอร์ชั่นแรกๆ เท่านั้น แต่เวอร์ชั่นที่ใกล้ตัวจริงที่เปิดให้ใช้งานก็ลดลงมาก
ที่มา - Clude 4 System Card
lew Mon, 26/05/2025 - 13:47
Continue reading...