Cloudflare ทำตลาด LLM ขนาดใหญ่ เริ่มจาก Kimi K2.5
Body
Cloudflare ปรับบริการ Workers AI จากเดิมให้บริการ LLM เฉพาะโมเดลขนาดเล็กถึงขนาดกลาง เช่น GPT-OSS 120B หรือ Nemotron 3 120B มาเป็นการให้บริการโมเดลขนาดใหญ่ด้วย ตัวแรกที่ให้บริการคือ Kimi K2.5 ที่มีขนาดถึง 1.1 ล้านล้านพารามิเตอร์
ทาง Cloudflare ระบุว่าภายในเองก็มีระบบรีวิวโค้ดต่อเนื่อง โดยต้องประมวลผลถึงวันละ 7 พันล้านโทเค็น หากใช้โมเดลชั้นนำก็จะมีค่าใช้จ่ายปีละ 2.4 ล้านดอลลาร์ แต่หากใช้ Kimi K2 จะถูกลง 77% การให้บริการ Kimi K2.5 โดยอาศัยเอนจิน Infire ที่พัฒนาขึ้นเองและเน้นประสิทธิภาพการให้บริการให้คุ้มค่าชิปกราฟิก
เนื่องจากเป็นโมเดลขนาดใหญ่ และรองรับ context window เต็ม 256k ทำให้การเปิดใช้งานแคชเป็นฟีเจอร์สำคัญ โดยก่อนหน้านี้ Workers AI ทำแคชให้อยู่แล้วแต่ไม่แจ้งข้อมูลผู้ใช้และควบคุมการทำแคชไม่ได้ ใน Kimi K2.5 จะเพิ่มข้อมูลว่าการเรียกใช้แต่ละครั้งมีการใช้แคชไปเท่าใด และสามารถเพิ่ม HTTP header ชื่อว่า
ตอนนี้ยังคงมีการจำกัดอัตราการใช้งาน (Rate Limit) แต่หากเรียกใช้งานที่รอได้ สามารถใช้ Asynchronous API เพื่อขอให้ประมวลผลแบบรอได้ โดยทั่วไปแล้วจะรอไม่เกิน 5 นาทีแต่การเรียกในโหมดนี้จะไม่ติดเพดานอัตราการเรียกใช้งาน
Kimi K2.5 เปิดให้บริการบน Cloudflare ที่ราคา 0.6 ดอลลาร์ต่อล้านโทเค็น 0.1 ดอลลาร์หากใช้แคช และ 3 ดอลลาร์ต่อล้านโทเค็นสำหรับเอาท์พุต
ที่มา - Cloudflare
lew Sun, 22/03/2026 - 21:53
Continue reading...
Body
Cloudflare ปรับบริการ Workers AI จากเดิมให้บริการ LLM เฉพาะโมเดลขนาดเล็กถึงขนาดกลาง เช่น GPT-OSS 120B หรือ Nemotron 3 120B มาเป็นการให้บริการโมเดลขนาดใหญ่ด้วย ตัวแรกที่ให้บริการคือ Kimi K2.5 ที่มีขนาดถึง 1.1 ล้านล้านพารามิเตอร์
ทาง Cloudflare ระบุว่าภายในเองก็มีระบบรีวิวโค้ดต่อเนื่อง โดยต้องประมวลผลถึงวันละ 7 พันล้านโทเค็น หากใช้โมเดลชั้นนำก็จะมีค่าใช้จ่ายปีละ 2.4 ล้านดอลลาร์ แต่หากใช้ Kimi K2 จะถูกลง 77% การให้บริการ Kimi K2.5 โดยอาศัยเอนจิน Infire ที่พัฒนาขึ้นเองและเน้นประสิทธิภาพการให้บริการให้คุ้มค่าชิปกราฟิก
เนื่องจากเป็นโมเดลขนาดใหญ่ และรองรับ context window เต็ม 256k ทำให้การเปิดใช้งานแคชเป็นฟีเจอร์สำคัญ โดยก่อนหน้านี้ Workers AI ทำแคชให้อยู่แล้วแต่ไม่แจ้งข้อมูลผู้ใช้และควบคุมการทำแคชไม่ได้ ใน Kimi K2.5 จะเพิ่มข้อมูลว่าการเรียกใช้แต่ละครั้งมีการใช้แคชไปเท่าใด และสามารถเพิ่ม HTTP header ชื่อว่า
x-session-affinity เพื่อแนะนำให้ Cloudflare ใช้เครื่องเดิมเพื่อให้ใช้แคชได้มากขึ้นตอนนี้ยังคงมีการจำกัดอัตราการใช้งาน (Rate Limit) แต่หากเรียกใช้งานที่รอได้ สามารถใช้ Asynchronous API เพื่อขอให้ประมวลผลแบบรอได้ โดยทั่วไปแล้วจะรอไม่เกิน 5 นาทีแต่การเรียกในโหมดนี้จะไม่ติดเพดานอัตราการเรียกใช้งาน
Kimi K2.5 เปิดให้บริการบน Cloudflare ที่ราคา 0.6 ดอลลาร์ต่อล้านโทเค็น 0.1 ดอลลาร์หากใช้แคช และ 3 ดอลลาร์ต่อล้านโทเค็นสำหรับเอาท์พุต
ที่มา - Cloudflare
lew Sun, 22/03/2026 - 21:53
Continue reading...