กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


Gemini 2.0 ใช้ทำ Object Detection ได้ในตัว ได้พิกัดในภาพโดยตรง

ข่าว Gemini 2.0 ใช้ทำ Object Detection ได้ในตัว ได้พิกัดในภาพโดยตรง

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Active member

สมาชิกทีมงาน
Moderator
Collaborate
วันนี้หลังจากกูเกิลเปิดตัว Gemini 2.0 Flash เอกสารสำหรับนักพัฒนาก็แสดงฟีเจอร์เพิ่มเติมที่ไม่ได้อยู่ในประกาศเปิดตัวโดยตรง ได้แก่

  • รองรับการทำ Google Search เต็มรูปแบบ: เมื่อเปิดให้เข้าถึง Google Search แล้ว Gemini 2.0 จะตัดสินใจเองว่าต้องการค้นหาหรือไม่ รวมถึงสามารถต้นหาเพิ่มเติมได้ด้วย (multi-turn search)
  • Multimodal Live API: เป็น API ใหม่แบบเดียวกับ Realtime API ของ OpenAI อาศัย WebSocket ในการรับข้อมูลจาก Gemini 2.0 ทำให้สามารถคุยต่อเนื่อง ใส่ภาพ, วิดีโอ, ข้อความได้ พูดแทรกได้ นอกจากนี้ยังสามารถค้น Google, เรียกฟังก์ชั่น, หรือรันโค้ด ไปด้วยระหว่างคุยกัน กูเกิลเตือนว่าหากใส่ข้อความพร้อมกับเสียง ความสามารถในการเรียกใช้เครื่องมือจะแย่ลง
  • เรียกฟังก์ชั่นเป็นชุด (compositional fuction calling): แทนที่จะเรียกใช้เครื่องมือทีละตัว Gemini 2.0 สามารถเขียนโค้ดเพื่อเรียกเครื่องมือที่ต้องการ แล้วรอผลจากแต่ละฟังก์ชั่น กูเกิลสาธิตความสามารถนี้ด้วยการสั่งเปิดไฟสิบวินาทีแล้วปิดไฟ Gemini สามารถเขียนโค้ดให้รอสิบวินาทีก่อนเรียกฟังก์ชั่นปิดไฟ
  • เรียกได้หลายฟังก์ชั่นพร้อมกัน (multi-tool): แทนที่จะต้องการค่าจากแต่ละฟังก์ชั่นทีละตัว Gemini 2.0 สามารถเรียกใช้ฟังก์ชั่นเป็นชุดได้ในการเรียกครั้งเดียว ทั้งฟังก์ชั่นจากผู้ใช้, การเขียนโค้ด, และการค้นกูเกิล
  • ค้นตำแหน่งในภาพ (bounding box detection): แทนที่จะถามว่าในภาพมีวัตถุอะไรบ้าง Gemini 2.0 สามารถคืนค่าพิกัดของวัตถุในภาพได้อย่างแม่นยำ แต่บังคับว่าต้องเป็นพิกัดแบบ [y_min, x_min, y_max, x_max] เท่านั้น และภาพรองรับไม่เกิน 1000x1000 พิกเซล แนวทางนี้ไม่น่าแปลกใจนักเพราะกูเกิลเปิดตัว Project Mariner สำหรับการควบคุมเบราว์เซอร์มาพร้อมกัน แต่ก่อนหน้านี้ Anthropic ก็เปิดตัวฟีเจอร์ Computer Use แบบเดียวกัน แต่ Claude กลับไม่มีฟีเจอร์คืนพิกัดโดยตรง

ฟีเจอร์การสร้างเสียงและภาพยังจำกัดวงปิดเท่านั้น ส่วนฟีเจอร์อื่นๆ สามารถใช้ได้เลยตั้งแต่วันนี้

ที่มา - Gemini API Docs

Gemini 20 ใช้ทำ Object Detection ได้ในตัว ได้พิกัดในภาพโดยตรง-1.webp


พรอมพ์ "Detect the 2d bounding boxes of texts (with “label” as text content)"

Topics:
Gemini
Development
LLM

Continue reading...
 



กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม ด้านล่าง