Typhoon เปิดตัวโมเดล OCR สำหรับดึงข้อมูลจากเอกสารและรูปภาพ รองรับภาษาไทยและอังกฤษ
Body
ทีม Typhoon จาก SCB 10X เปิดตัวโมเดล OCR สำหรับดึงข้อมูลจากรูปภาพและเอกสาร PDF ชื่อ Typhoon OCR ชูจุดเด่นเข้าใจทั้งภาษาไทยและภาษาอังกฤษ โดยมีประสิทธิภาพในภาษาไทยที่เหนือกว่า GPT-4o และ Gemini 2.5 Flash
โดยเบื้องหลังใช้สถาปัตยกรรมเป็น Vision Language Model (VLM) ซึ่งเข้าใจทั้งภาษาและรูปภาพ ขนาด 7 พันล้านพารามิเตอร์ พัฒนาต่อยอดจาก Qwen2.5-VL-7B-Instruct และได้รับแรงบันดาลใจจากแนวทางอย่าง olmOCR ซึ่งร่วมใช้ข้อมูล metadata จากไฟล์ PDF ในระหว่างการดึงข้อมูล
Typhoon OCR รองรับการดึงข้อมูลจากเอกสารที่มีความซับซ้อนอย่างงบการเงิน อินโฟกราฟิก และเอกสารราชการได้ รวมถึงรองรับตัวเลขไทย
สำหรับผู้ที่สนใจใช้ Typhoon OCR สามารถทดลองใช้ได้ผ่านหลากหลายช่องทาง เช่น
ที่มา — Typhoon Blog
pittawat Tue, 05/20/2025 - 22:54
Continue reading...
Body
ทีม Typhoon จาก SCB 10X เปิดตัวโมเดล OCR สำหรับดึงข้อมูลจากรูปภาพและเอกสาร PDF ชื่อ Typhoon OCR ชูจุดเด่นเข้าใจทั้งภาษาไทยและภาษาอังกฤษ โดยมีประสิทธิภาพในภาษาไทยที่เหนือกว่า GPT-4o และ Gemini 2.5 Flash
โดยเบื้องหลังใช้สถาปัตยกรรมเป็น Vision Language Model (VLM) ซึ่งเข้าใจทั้งภาษาและรูปภาพ ขนาด 7 พันล้านพารามิเตอร์ พัฒนาต่อยอดจาก Qwen2.5-VL-7B-Instruct และได้รับแรงบันดาลใจจากแนวทางอย่าง olmOCR ซึ่งร่วมใช้ข้อมูล metadata จากไฟล์ PDF ในระหว่างการดึงข้อมูล
Typhoon OCR รองรับการดึงข้อมูลจากเอกสารที่มีความซับซ้อนอย่างงบการเงิน อินโฟกราฟิก และเอกสารราชการได้ รวมถึงรองรับตัวเลขไทย
สำหรับผู้ที่สนใจใช้ Typhoon OCR สามารถทดลองใช้ได้ผ่านหลากหลายช่องทาง เช่น
- Online demo: https://ocr.opentyphoon.ai
- API: Typhoon API
- HuggingFace: scb10x/typhoon-ocr-7b
- GitHub: typhoon-ocr
ที่มา — Typhoon Blog
pittawat Tue, 05/20/2025 - 22:54
Continue reading...