กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


News

news OpenAI ปรับ tokenizer รองรับภาษาเพิ่ม 20 ภาษา ประหยัดค่า token แต่ยังไม่รับภาษาไทย

News 

Active member

Staff member
Moderator
Distributor
ในงานเปิดตัว GPT-4o ของ OpenAI นอกจากประเด็นโมเดลมีประสิทธิภาพสูงขึ้นแล้ว ยังมีประเด็นการออปติไมซ์ tokenizer เพื่อให้ใช้งานภาษาอื่นๆ นอกจากภาษาอังกฤษได้ดีขึ้น โดยทีมงาน OpenAI เลือกมา 20 ภาษารวมถึงภาษาอังกฤษแต่ยังไม่มีภาษาไทย ทำให้ภาษาเหล่านี้ใช้งานได้มีประสิทธิภาพมากขึ้นเพราะคำในภาษาเหล่านี้มีจำนวนโทเค็นน้อยลง

ตัวอย่างภาษาที่ได้รับการออปติไมซ์ เช่น ภาษา Gujarati ที่มีผู้ใช้ประมาณ 55 ล้านคน จะประหยัดโทเค็นลงถึง 4.4 เท่าตัว ในประโยคตัวอย่าง จาก 145 โทเค็นเหลือ 33 โทเค็น, ภาษาอราบิกประหยัดลง 2 เท่าตัว, ภาษาเวียดนามประหยัดลง 1.5 เท่าตัว หรือแม้แต่ภาษายอดนิยม เช่นภาษาอังกฤษ, ฝรั่งเศส, สเปน, และโปรตุเกส ก็ถูกออปติไมซ์จนประหยัดโทเค็นลง 1.1 เท่าตัว

จำนวนโทเค็นในแต่ละภาษาส่งผลโดยตรงต่อการใช้งาน เพราะพารามิเตอร์อย่างๆ ของปัญญาประดิษฐ์แบบ large-language model ไม่ได้คิดตามจำนวนตัวอักษรแต่คิดตามจำนวนโทเค็น การที่ประโยคใช้โทเค็นน้อยทำให้ใส่ข้อมูลได้มากขึ้นใน context window เท่าเดิม หรือหากใส่ข้อมูลเท่าเดิมค่าใช้งานก็จะประหยัดลง ที่ผ่านมา tokenizer ของ GPT-4 จะให้โทเค็นประโยคใกล้เคียงกันภาษาไทยจะมีจำนวนโทเค็นมากกว่าภาษาอังกฤษ ประมาณ 2 เท่าตัว

ยังไม่แน่ชัดว่า tokenizer ใหม่นี้จะส่งผลอย่างไรต่อภาษาไทย โดย OpenAI เตรียมเมนูทดสอบ tokenizer สำหรับ GPT-4o แล้วแต่ยังใช้งานไม่ได้

ที่มา - OpenAI

e368d657dc525c7cbbbd2b08b21c08ca.png


Topics:
OpenAI
LLM
ChatGPT

อ่านต่อ...
 



กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
Back
Top Bottom