กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


Anthropic เปิดตัวระบบป้องกัน jailbreak โมเดลแบบใหม่ ท้าให้ลองเจาะ ทำสำเร็จมีเงินรางวัล

ข่าว Anthropic เปิดตัวระบบป้องกัน jailbreak โมเดลแบบใหม่ ท้าให้ลองเจาะ ทำสำเร็จมีเงินรางวัล

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Active member

สมาชิกทีมงาน
Moderator
Collaborate
Anthropic เปิดตัวระบบป้องกันการเจาะ (jailbreak) โมเดลปัญญาประดิษฐ์แบบใหม่ชื่อว่า Constitutional Classifiers

โมเดลภาษาขนาดใหญ่มีระบบ safety ป้องกันการนำโมเดลไปใช้สร้างเนื้อหาอันตราย แต่มนุษย์ก็สามารถใช้ช่องโหว่บางอย่าง เช่น พรอมต์ขนาดยาวมากๆ หรือ การเขียนอินพุตที่ต่างไปจากข้อความที่พบเจอทั่วไป (ตัวอย่าง uSiNg uNuSuAl cApItALiZaTiOn) มาเจาะระบบป้องกันของโมเดล เพื่อหลอกล่อให้ได้คำตอบแบบที่ต้องการ

เนื่องจากช่องโหว่ของโมเดลมีหลายรูปแบบมาก วิธีการป้องกันย่อมแตกต่างกันไป ทำให้ Anthropic พัฒนากลไกแบบใหม่ที่ป้องกันการเจาะโมเดลได้ทุกแบบ (universal jailbreak)

Anthropic เปิดตัวระบบป้องกัน jailbreak โมเดลแบบใหม่ ท้าให้ลองเจาะ ทำสำเร็จมีเงินรางวัล-1.webp


เทคนิคของ Constitutional Classifiers พัฒนาต่อมาจาก Constitutional AI ที่ใช้ใน Claude อยู่แล้ว แนวคิดของมันคือโมเดลจะมี "หลักการ" หรือ "ธรรมนูญ" (constitution) ว่าโมเดลตอบอะไรได้ และตอบอะไรไม่ได้ เช่น บอกสูตรการทำมัสตาร์ด (อาหาร) ได้ แต่ไม่สามารถบอกสูตรการทำแก๊สมัสตาร์ด (แก๊สพิษ) ได้

หลังจากนั้น Anthropic ให้ Claude ช่วยสร้างพรอมต์จำนวนมากๆ อิงจากพรอมต์ที่มนุษย์สร้างเพื่อใช้เจาะโมเดล ปรับแต่งให้หลากหลายขึ้น แล้วนำไปแปลเป็นภาษาต่างๆ อีกชั้น ผลคือพรอมต์จำนวนมากที่ใช้ทดสอบการเจาะโมเดล

จากนั้นทีมของ Anthropic จะคัดแยกพรอมต์และผลลัพธ์ที่ได้เป็นหมวดหมู่ต่างๆ (classifier) เพื่อให้สามารถบล็อคพรอมต์ลักษณะเดียวกันได้ ทีมวิจัยยังปรับความสมดุลไม่ให้โมเดลปฏิเสธการตอบคำถามมากจนเกินไป (over-refusal) อีกชั้นด้วย

Anthropic เปิดตัวระบบป้องกัน jailbreak โมเดลแบบใหม่ ท้าให้ลองเจาะ ทำสำเร็จมีเงินรางวัล-2.webp


Anthropic บอกว่ามั่นใจในระบบ Constitutional Classifiers และเชิญชวนให้คนทั่วไป ร่วมทดสอบเจาะโมเดล เพื่อลองดูว่าอินพุตในโลกจริงๆ เป็นอย่างไร ระบบป้องกันทำงานได้ดีแค่ไหน โดยมีเงินรางวัล bug bounty ให้ 15,000 ดอลลาร์ หากมีคนหลอกล่อให้โมเดลตอบคำถามอันตราย 10 ข้อได้ ซึ่งที่ผ่านมาบริษัทได้เชิญผู้เชี่ยวชาญในสาขาต่างๆ 183 คน มาลองเจาะเป็นเวลารวมกันมากกว่า 3,000 ชั่วโมงแล้วยังไม่สำเร็จ

ที่มา - Anthropic, Ars Technica

Topics:
Anthropic
LLM
Claude
Artificial Intelligence

Continue reading...
 

กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง