Flashmla

การอนุมาน LLM ที่เร็วขึ้นบน Hopper GPUs

Flashmla media 1
Flashmla media 2
Flashmla media 3

คำอธิบาย

Flashmla จาก Deepseek เป็นเคอร์เนลการถอดรหัส MLA ที่มีประสิทธิภาพสำหรับ GPU แบบ Hopper ซึ่งได้รับการปรับให้เหมาะสมสำหรับลำดับความยาวตัวแปร บรรลุแบนด์วิดธ์หน่วยความจำสูงสุด 3000 GB/s และ 580 TFLOPS

ผลิตภัณฑ์แนะนำ