最好的FlashMLA AI工具模型_精选FlashMLA资讯

AI资讯

DeepSeek代码库现神秘标识符“MODEL1”，新一代旗舰或于 2 月亮相

国产AI公司DeepSeek在GitHub代码库中更新FlashMLA代码，被发现大量指向未知模型“MODEL1”的标识符。该标识符与现有V3.2版本并列提及，暗示这可能是一个全新的模型序列，而非简单迭代。

AI日报：DeepSeek开源大模型加速器FlashMLA；海螺AI推I2V-01-Director模型；Pixverse V4.0支持同步音效与转绘功能

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、DeepSeek开源周首日：发布大模型加速利器FlashMLA解码性能飙升至3000GB/sDeepSeek在开源周首日推出了FlashMLA，这是一款针对英伟达Hopper架构GPU的高效多层注意力解码内核，旨在优化变长序列场景下的大模型推理性能。公司致力于通过AI技术改变创作者的创作方式，建立了完整的创作生态链，并在用户增长和技术研发上持续发力。

13.5k 前天

AI日报：DeepSeek开源大模型加速器FlashMLA；海螺AI推I2V-01-Director模型；Pixverse V4.0支持同步音效与转绘功能

DeepSeek 开源周首日：发布大模型加速利器FlashMLA 解码性能飙升至3000GB/s

DeepSeek 开源周首日正式开源其最新技术成果FlashMLA，这是一款专为英伟达Hopper架构GPU打造的高效多层注意力（Multi-Layer Attention）解码内核。该技术特别针对变长序列场景进行优化，可显著提升大模型推理性能。FlashMLA的核心技术特性包括对BF16精度的全面支持，以及采用块大小为64的页式键值缓存（Paged KV Cache）系统，实现更精确的内存管理。在性能表现方面，基于CUDA12.6平台，FlashMLA在H800SXM5GPU上创下了显著成绩:在内存受限场景下达到3000GB/s的处理速度，在计算受限场景下则实现580TFLOPS的算力

32.4k 刚刚