กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


EXO Labs ทดสอบ Mac Studio อัดแรมเต็มสองเครื่อง รัน DeepSeek-R1 ตัวเต็มได้ 11 token/s

ข่าว EXO Labs ทดสอบ Mac Studio อัดแรมเต็มสองเครื่อง รัน DeepSeek-R1 ตัวเต็มได้ 11 token/s

  • ผู้เริ่มหัวข้อ ผู้เริ่มหัวข้อ News 
  • วันที่เริ่มต้น วันที่เริ่มต้น

News 

Active member

สมาชิกทีมงาน
Moderator
Collaborate
เข้าร่วม
1 มิถุนายน 2011
ข้อความ
12,607
คะแนนปฏิกิริยา
0
คะแนน
36
EXO Labs ผู้พัฒนาซอฟต์แวร์คลัสเตอร์สำหรับรันปัญญาประดิษฐ์ รายงานถึงผลทดสอบของ Mac Studio ที่ใช้ชิป M3 Ultra พร้อมกับแรม 512GB สองเครื่อง สามารถรันโมเดล DeepSeek-R1 ตัวเต็มที่ 671B FP8 ได้ด้วยความเร็ว 11 token/s

M3 Ultra มีความได้เปรียบสำหรับการรันปัญญาประดิษฐ์ในบ้าน เพราะรองรับแรมแบบ unified memory ขนาดใหญ่, มีแบนวิดท์หน่วยความจำสูง, และในเวอร์ชั่นนี้ยังรองรับ Thunderbolt 5 ที่แบนวิดท์สูงขึ้นเป็น 120Gb/s ตัวแอปเปิลเองถึงกับโฆษณาความเร็วในการรัน LLM ไว้ด้วย

โดยเฉลี่ยแล้วความเร็ว 11 token/s ประมาณได้ว่าเป็นการพิมพ์ 40-50 ตัวอักษรต่อวินาทีซึ่งก็น่าจะเพียงพอต่อการแชตทั่วไป แต่ในกรณีโมเดลคิดก่อนตอบ เช่น R1 นั้นประสิทธิภาพจะช้ามากก่อนได้คำตอบ เนื่องจากโมเดลเสียเวลาคิดอยู่ช่วงหนึ่ง

Alex Cheema จาก EXO Labs ระบุว่าความเร็วทางทฤษฎีน่าจะไปได้ถึง 20 token/s และหลังจากนั้นน่าจะหาทางปรับปรุงประสิทธิภาพทางอื่น เช่น expert parallelism ซึ่งอาจจะดันไปได้ถึง 40 token/s นอกจากนี้หากย่อโมเดลลงให้กลายเป็น Q6_K น่าจะย่อโมเดลได้เหลือ 500GB ซึ่งจะรันใน Mac Studio เครื่องเดียวได้ (แรมเกือบหมดทันที) Cheema ระบุว่าเขาจะเอามาทดสอบต่อไป

ที่มา - @alexocheema

EXO Labs ทดสอบ Mac Studio อัดแรมเต็มสองเครื่อง รัน DeepSeekR1 ตัวเต็มได้ 11 tokens-1.webp


Topics:
Artificial Intelligence
LLM
Apple M4
DeepSeek

Continue reading...
 



กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
กลับ
ยอดนิยม