ข่าว คำตอบยอดนิยมเมื่อถามบริษัทพัฒนา AI ว่าใช้ข้อมูลจากที่ไหนมาเทรนตอนนี้คือ "ข้อมูลที่มีในสาธารณะ"

News · 8 เมษา 2024

Ed Newton-Rex อดีตวิศวกรผู้พัฒนา AI สร้างเสียงที่ Stability AI ได้ตัดสินใจลาออกจากบริษัทเมื่อปลายปีที่แล้ว เหตุผลคือเขาไม่แน่ใจในทิศทางการพัฒนา AI โดยเทรนด้วยคอนเทนต์ที่มีลิขสิทธิ์คุ้มครอง ทำให้เขาตั้งองค์กรชื่อ Fairly Trained เพื่อรับรองโมเดล AI ที่ยืนยันแล้วว่าเทรนด้วยข้อมูลที่ซื้อไลเซนส์มาถูกต้อง หรือใช้ข้อมูลที่เป็นสาธารณสมบัติ (Public Domain) ซึ่งทุกคนสามารถใช้งานได้ไม่มีการคุ้มครองแล้ว

Ed บอกว่าคำตอบมาตรฐานของบริษัทเทคโนโลยีตอนนี้ เมื่อถูกถามว่าใช้ข้อมูลจากไหนมาเทรน AI ก็คือ "ข้อมูลที่มีในสาธารณะ" ซึ่งเป็นคำที่สร้างความสับสน เพราะฟังแล้วเหมือนบริษัทได้รับ "อนุญาต" ให้ "เก็บรวบรวม" และไม่ได้พยายาม "เจาะเข้าไป" เอาข้อมูลออกมา ซึ่งทั้งหมดไม่ได้มีความหมายเท่ากับคำว่าใช้ข้อมูล Public Domain

Timothy K. Giordano ที่ปรึกษาด้านกฎหมายซึ่งทำคดีฟ้องร้องบริษัทพัฒนา AI หลายแห่ง ให้ความเห็นว่าคำว่าข้อมูลที่มีในสาธารณะนั้น หลายอย่างก็มีลิขสิทธิ์คุ้มครองอยู่แล้ว คำว่าข้อมูลที่มีในสาธารณะยังรวมไปถึงการดึงข้อมูลจากเว็บไพเรตได้ด้วย ซึ่งผิดกฎหมายด้วยซ้ำ

ประเด็นที่บริษัทพัฒนา AI มักใช้อ้างอิง ว่าการนำข้อมูลที่มีในสาธารณะมาเทรน ไม่ได้มีความผิด ประเด็นแรกมาจากคำตัดสินคดีในอดีตที่สำนักพิมพ์ฟ้อง Google Books ซึ่งจบที่ศาลตัดสินว่าการใช้ข้อมูลมีลิขสิทธิ์ที่มีในสาธารณะ "บางส่วน" สามารถทำได้และเป็น "Fair Use" จึงทำให้บริษัทพัฒนา AI ใช้คดีนี้อ้างอิง อีกประเด็นคือ AI นั้นถูกเทรนหรือ "เรียน" จากข้อมูลต่าง ๆ เป็นวิธีการเรียนรู้แบบมนุษย์ ไม่ได้ลอกเนื้อหาเหล่านี้

คำว่าข้อมูลที่มีในสาธารณะถูกนำมาเป็นประเด็นหลังการให้สัมภาษณ์ของ Mira Murati ซีทีโอ OpenAI เมื่อถามว่าข้อมูลที่ใช้เทรน AI สร้างวิดีโอ Sora นำมาจาก YouTube หรือไม่ และคำตอบคือวิดีโอที่เป็นสาธารณะจากแหล่งต่าง ๆ ต่อมา Neal Mohan ซีอีโอ YouTube จึงให้ความเห็นว่า หาก OpenAI ใช้วิดีโอของ YouTube มาเทรน ถือเป็นการละเมิดข้อกำหนดการใช้งาน

Axios รวบรวมคำอธิบายว่าบริษัทผู้พัฒนา AI รายใหญ่ ใช้ข้อมูลจากแหล่งใดมาเทรน OpenAI เคยบอกว่าใช้ข้อมูลที่ซื้อไลเซนส์ รวมกับข้อมูลที่เข้าถึงได้แบบสาธารณะบนอินเทอร์เน็ต, Google บอกว่าใช้ข้อมูลที่หาได้บนอินเทอร์เน็ต โดยเว็บไซต์สามารถตั้งค่าไม่ให้ AI นำข้อมูลไปเทรนได้, Meta บอกว่าข้อมูลที่ใช้เทรน Llama 2 เป็นชุดข้อมูลจากหลายแหล่งที่เข้าถึงได้จากออนไลน์แบบสาธารณะ และ Microsoft บอกว่าใช้ข้อมูลหลายแหล่ง รวมทั้งที่เข้าถึงได้แบบสาธารณะบนอินเทอร์เน็ต ซึ่งนำมาใช้งานให้เป็นไปตามลิขสิทธิ์และข้อกำหนดในกฎหมาย

ที่มา: Axios

Topics:
Artificial Intelligence
Copyright

อ่านต่อ...

ข่าว คำตอบยอดนิยมเมื่อถามบริษัทพัฒนา AI ว่าใช้ข้อมูลจากที่ไหนมาเทรนตอนนี้คือ "ข้อมูลที่มีในสาธารณะ"

News

Similar threads

เราให้ความสําคัญกับความเป็นส่วนตัวของคุณ