ข่าว ทีมวิจัยกูเกิลเปิดตัว VaultGemma โมเดลรักษาความเป็นส่วนตัวแบบ Differential Privacy

News · วันนี้ เวลา 11:27

ทีมวิจัยกูเกิลเปิดตัว VaultGemma โมเดลรักษาความเป็นส่วนตัวแบบ Differential Privacy
Body

ทีมวิจัย Google Research เปิดตัวโมเดล VaultGemma ที่เทรนมาตามแนวทางการรักษาความเป็นส่วนตัวแบบ differential privacy

differential privacy เป็นแนวคิดที่นำข้อมูลก้อนใหญ่ไปวิเคราะห์ต่อ โดยยังรักษาความเป็นส่วนตัวของผู้ใช้แต่ละคน หลักการของมันคือใส่ noise เข้าไปในข้อมูล เพื่อไม่ให้แยกแยะข้อมูลเป็นรายบุคคลได้ แต่ในภาพใหญ่แล้วยังเป็นข้อมูลลักษณะเดิมอยู่ ในอดีตเคยมีทั้ง Apple และ Google นำแนวทางนี้ไปใช้กับผลิตภัณฑ์ของตัวเองบ้าง

พอโลกเข้าสู่ยุค LLM เกิดไอเดียการทำ differential privacy กับโมเดลด้วยเช่นกัน แต่การใส่ noise เข้ามากลับส่งผลกระทบต่อประสิทธิภาพของการเทรนโมเดลตามกฎ scaling laws ส่งผลให้เกิด training loss คือโมเดลได้ประสิทธิภาพไม่ดีเท่าที่ควรจะเป็น

VaultGemma เป็นโมเดลต้นแบบที่ Google Research พยายามแก้ปัญหานี้ โดยทดลองใส่ noise ในสัดส่วนที่ต่างกัน (noise-batch ratio) เพื่อดูผลกระทบต่อขนาดและประสิทธิภาพของโมเดล

ทีมวิจัยค้นพบว่าการเพิ่ม noise เพื่อเพิ่มความเป็นส่วนตัว (privacy budget) หรือเพิ่มพลังประมวลผลในการเทรน (compute budget) เพียงอย่างเดียว ไม่ได้ผลดีเท่าที่ควร ต้องทำทั้งสองแกนควบคู่กันไปตามเส้นสีเขียวในภาพ

ทีมวิจัยกูเกิลเปิดตัว VaultGemma โมเดลรักษาความเป็นส่วนตัวแบบ Differential Privacy-1.webp

เมื่อนำเทคนิคนี้ไปใช้งานจึงได้ออกมาเป็น VaultGemma ที่นำ Gemma 2 ขนาดพารามิเตอร์ 1B ไปเทรนต่อแบบ differential privacy แล้วได้ผลออกมาดีตามต้องการ

ทีมวิจัยกูเกิลเปิดตัว VaultGemma โมเดลรักษาความเป็นส่วนตัวแบบ Differential Privacy-2.webp

อย่างไรก็ตาม ทีมวิจัยยอมรับว่าเทคนิคนี้เป็นเพียงจุดเริ่มต้นของโมเดลกลุ่ม differential privacy เท่านั้น เพราะโมเดลที่ใช้เป็นฐานยังเป็น Gemma 2 ตัวเก่า และยังจำกัดที่ขนาดพารามิเตอร์ 1B เท่านั้น การทดลองสร้าง VaultGemma จึงเป็นแค่การเรียนรู้เทคนิคการออกแบบโมเดลว่าใช้ได้ผลจริงๆ เพื่องานวิจัยสายนี้ในอนาคตต่อไป ตัว VaultGemma เปิดเป็นโอเพนซอร์สและดาวน์โหลดได้จากบน HuggingFace / Kaggle

ที่มา - Google Research

mk Mon, 15/09/2025 - 10:32

Continue reading...