กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


Meta โชว์คลัสเตอร์ใหม่สำหรับฝึก LLaMA 3 ชิป H100 24,576 ตัว ซื้อเพิ่มต่อเนื่องสิ้นปี 350,000 ตัว

news Meta โชว์คลัสเตอร์ใหม่สำหรับฝึก LLaMA 3 ชิป H100 24,576 ตัว ซื้อเพิ่มต่อเนื่องสิ้นปี 350,000 ตัว

News 

Active member

Staff member
Moderator
Distributor
Meta รายงานถึงข้อมูลของคลัสเตอร์ใหม่ที่บริษัทใช้ฝึกปัญญาประดิษฐ์ โดยทำขึ้นมาเพื่อออกแบบและฝึก LLaMA 3 โดยเฉพาะ และเป็นพื้นที่ทดสอบสถาปัตยกรรมคลัสเตอร์ใหม่ที่จะขยายต่อไปในอนาคต โดยประกาศแผนว่าจะซื้อเพิ่มไปเรื่อยๆ จนสิ้นปีมีชิป H100 ประมาณ 350,000 ตัว พลังประมวลผลรวมเทียบเท่ากับชิป H100 จำนวน 600,000 ตัว

คลัสเตอร์มีสองชุดหลัก ต่างกันที่ระบบเน็ตเวิร์คที่ต้องรองรับการเข้าถึงแรมข้ามเครื่อง ชุดแรกใช้ remote direct memory access (RDMA) over converged Ethernet (RoCE) เน็ตเวิร์คของ Arista 7800 พร้อม Wedge400 อีกชุดใช้ NVIDIA Quantum2 InfiniBand ทั้งสองชุดมีแบนวิดท์เชื่อมต่อ 400Gbps เท่ากัน โดยตอนนี้พบว่าทั้งสองชุดใช้งานต่างๆ ได้ดี

ตัวเซิร์ฟเวอร์ใช้เครื่อง Grand Teton ที่ Meta ออกแบบเอง สำหรับงาน AI โดยเฉพาะ ระบบสตอเรจเป็นแบบ Flash แล้ว mount เข้าลินุกซ์ด้วยระบบสตอเรจ Tectonic ที่ Meta สร้างมาใช้เองเช่นกัน

ความยากของการสร้างคลัสเตอร์ขนาดใหญ่เช่นนี้คือระบบสื่อสารจะสร้างคอขวดได้อย่างรวดเร็ว ทีมงานต้องออปติไมซ์ทั้งซอฟต์แวร์และตัวเน็ตเวิร์คเองเพื่อให้ประสิทธิภาพกลับไปใกล้เคียง 100% ที่เคยทำได้ในคลัสเตอร์ขนาดเล็ก

ที่มา - Meta

No Description


Topics:
Meta
Artificial Intelligence

อ่านต่อ...
 

Attachments

  • eccdf02419dceee380556c7c52627237.webp
    eccdf02419dceee380556c7c52627237.webp
    129.2 KB · Views: 41



กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
Back
Top Bottom