กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see


news Meta โชว์คลัสเตอร์ใหม่สำหรับฝึก LLaMA 3 ชิป H100 24,576 ตัว ซื้อเพิ่มต่อเนื่องสิ้นปี 350,000 ตัว

News

VIP Member
Staff member
VIP Member
Registered
Meta รายงานถึงข้อมูลของคลัสเตอร์ใหม่ที่บริษัทใช้ฝึกปัญญาประดิษฐ์ โดยทำขึ้นมาเพื่อออกแบบและฝึก LLaMA 3 โดยเฉพาะ และเป็นพื้นที่ทดสอบสถาปัตยกรรมคลัสเตอร์ใหม่ที่จะขยายต่อไปในอนาคต โดยประกาศแผนว่าจะซื้อเพิ่มไปเรื่อยๆ จนสิ้นปีมีชิป H100 ประมาณ 350,000 ตัว พลังประมวลผลรวมเทียบเท่ากับชิป H100 จำนวน 600,000 ตัว

คลัสเตอร์มีสองชุดหลัก ต่างกันที่ระบบเน็ตเวิร์คที่ต้องรองรับการเข้าถึงแรมข้ามเครื่อง ชุดแรกใช้ remote direct memory access (RDMA) over converged Ethernet (RoCE) เน็ตเวิร์คของ Arista 7800 พร้อม Wedge400 อีกชุดใช้ NVIDIA Quantum2 InfiniBand ทั้งสองชุดมีแบนวิดท์เชื่อมต่อ 400Gbps เท่ากัน โดยตอนนี้พบว่าทั้งสองชุดใช้งานต่างๆ ได้ดี

ตัวเซิร์ฟเวอร์ใช้เครื่อง Grand Teton ที่ Meta ออกแบบเอง สำหรับงาน AI โดยเฉพาะ ระบบสตอเรจเป็นแบบ Flash แล้ว mount เข้าลินุกซ์ด้วยระบบสตอเรจ Tectonic ที่ Meta สร้างมาใช้เองเช่นกัน

ความยากของการสร้างคลัสเตอร์ขนาดใหญ่เช่นนี้คือระบบสื่อสารจะสร้างคอขวดได้อย่างรวดเร็ว ทีมงานต้องออปติไมซ์ทั้งซอฟต์แวร์และตัวเน็ตเวิร์คเองเพื่อให้ประสิทธิภาพกลับไปใกล้เคียง 100% ที่เคยทำได้ในคลัสเตอร์ขนาดเล็ก

ที่มา - Meta

No Description


Topics:
Meta
Artificial Intelligence

อ่านต่อ...
 



กรุณาปิด โปรแกรมบล๊อกโฆษณา เพราะเราอยู่ได้ด้วยโฆษณาที่ท่านเห็น
Please close the adblock program. Because we can live with the ads you see
Back
Top