Cloudflare พบ Perplexity สร้างบอตล่องหนไว้ดูดเนื้อหาเว็บไซต์ แม้จะห้ามที่ robots.txt แล้วก็ตาม
Body
Cloudflare เปิดเผยว่า Perplexity ได้ใช้เทคนิคการดูดข้อมูลเนื้อหาจากเว็บไซต์แบบลับซึ่งเรียกว่าวิธี stealth crawling ด้วยการสร้าง agent ที่ปลอมตัวเป็นเบราว์เซอร์ทั่วไป ใช้ IP และ ASN ต้นทางที่ทำให้ตรวจจับการบล็อกบอต AI ไม่ได้ ทั้งนี้ Perplexity ไม่ได้ใช้วิธีการนี้ทั้งหมดในการดูดเนื้อหาเว็บไซต์ โดยยังใช้บอตทางการ
ถึงตรงนี้อาจสงสัยว่าแล้ว Cloudflare รู้ได้อย่างไรว่าบอตอำพรางนี้มาจาก Perplexity? วิธีทดสอบคือ Cloudflare ได้สร้างโดเมนไว้หลายอันที่ไม่เปิดเผยต่อสาธารณะ ตั้งค่าไฟล์
Cloudflare ยังเทียบพฤติกรรมนี้กับ OpenAI โดยบอกว่า OpenAI มีกระบวนการเปิดเผยตัวตนของบอตที่โปร่งใส และไม่ดูดเนื้อหาจากเว็บไซต์ที่กำหนดไว้ในระดับ
Cloudflare บอกว่าเมื่อเกิดเหตุการณ์เช่นนี้ ระบบจัดการบอตดูดเนื้อหา AI ของบริษัท จึงได้เพิ่มความสามารถป้องกันบอตลับของ Perplexity เพิ่มเติมให้ลูกค้าทุกคนในการควบคุมการเข้าถึงเนื้อหา รวมทั้งลูกค้าแบบฟรีด้วย
ที่มา: Cloudflare
arjin Tue, 05/08/2025 - 07:33
Continue reading...
Body
Cloudflare เปิดเผยว่า Perplexity ได้ใช้เทคนิคการดูดข้อมูลเนื้อหาจากเว็บไซต์แบบลับซึ่งเรียกว่าวิธี stealth crawling ด้วยการสร้าง agent ที่ปลอมตัวเป็นเบราว์เซอร์ทั่วไป ใช้ IP และ ASN ต้นทางที่ทำให้ตรวจจับการบล็อกบอต AI ไม่ได้ ทั้งนี้ Perplexity ไม่ได้ใช้วิธีการนี้ทั้งหมดในการดูดเนื้อหาเว็บไซต์ โดยยังใช้บอตทางการ
PerplexityBot
และ Perplexity-User
ทำการดูดเนื้อหาควบคู่กันไป แต่บอตทางการจะไม่สามารถเข้าถึงเว็บไซต์ที่กำหนดค่าไว้ใน robots.txt
เลยต้องใช้วิธีอื่นมาเสริม ซึ่ง Cloudflare มองว่าเป็นการละเมิดแนวทางความโปร่งใสการทำงานบนอินเทอร์เน็ตถึงตรงนี้อาจสงสัยว่าแล้ว Cloudflare รู้ได้อย่างไรว่าบอตอำพรางนี้มาจาก Perplexity? วิธีทดสอบคือ Cloudflare ได้สร้างโดเมนไว้หลายอันที่ไม่เปิดเผยต่อสาธารณะ ตั้งค่าไฟล์
robots.txt
ห้ามบอตทุกชนิดเข้ามาดูดเนื้อหา จากนั้นจึงทดสอบ AI ทุกค่ายว่าสามารถเข้าถึงเนื้อหาเว็บไซต์เหล่านี้ได้หรือไม่ พบว่ามี Perplexity AI เพียงรายเดียวที่ให้ข้อมูลได้ถูกต้องทั้งหมด จึงยืนยันได้ว่า Perplexity มีวิธีอื่นที่ไม่ระบุตัวตนในการเข้าถึงเว็บไซต์นั่นเองCloudflare ยังเทียบพฤติกรรมนี้กับ OpenAI โดยบอกว่า OpenAI มีกระบวนการเปิดเผยตัวตนของบอตที่โปร่งใส และไม่ดูดเนื้อหาจากเว็บไซต์ที่กำหนดไว้ในระดับ
robots.txt
ซึ่งมีความรับผิดชอบCloudflare บอกว่าเมื่อเกิดเหตุการณ์เช่นนี้ ระบบจัดการบอตดูดเนื้อหา AI ของบริษัท จึงได้เพิ่มความสามารถป้องกันบอตลับของ Perplexity เพิ่มเติมให้ลูกค้าทุกคนในการควบคุมการเข้าถึงเนื้อหา รวมทั้งลูกค้าแบบฟรีด้วย
ที่มา: Cloudflare
arjin Tue, 05/08/2025 - 07:33
Continue reading...