为 Hopper GPU 设计的高效 MLA 解码内核,针对可变长度序列进行了优化,并且投入了生产环境。 ✅ 支持 BF16 精度 ✅ 使用分页 KV 缓存(块大小为 64 ) ⚡ 在 H800 GPU 上实现 3000 GB/s 的内存带宽和 580 TFLOPS 的计算性能 Github: https://github.com/deepseek-ai/FlashMLA X: https://x.com/deepseek_ai/status/1893836827574030466
DeepSeek 开源周第一天: FlashMLA
内容版权声明:除非注明,否则皆为本站原创文章。