Flashmla
Snellere LLM -gevolgtrekking op Hopper GPU's



Beschrijving
FlashMLA, van Deepseek, is een efficiënte MLA-decodering van kernel voor hopper GPU's, geoptimaliseerd voor sequenties met variabele lengte. Bereikt maximaal 3000 GB/s geheugenbandbreedte en 580 tflops.