寒武纪宣布完成对DeepSeek-V4全系列模型的“Day0”适配,基于vLLM推理框架,覆盖285B参数Flash版及1.6T参数Pro版。通过自研Torch-MLU-Ops算子库优化稀疏注意力与压缩结构,确保模型发布当日即可在寒武纪硬件上稳定运行,相关代码已开源至GitHub。
寒武纪公司宣布,已成功完成对深度求索公司开源AI模型DeepSeek-V4的Day 0适配,实现发布当天即稳定运行。通过自研融合算子库Torch-MLU-Ops,对模型中的Compressor、mHC等模块进行针对性加速,大幅提升推理效率。同时采用vLLM推理框架,为用户带来更高效的人工智能体验。
欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、OpenAI出手!Cowork处于研究预览阶段,仅对ClaudeMax订阅用户开放,其他用户可申请加入候补名单。
OpenAI以价值1亿美元的股权收购医疗记录初创公司Torch,其四人团队将加入OpenAI。该团队曾任职于AI诊所Forward Health,后开发了用于医疗记录分析的AI工具。
PyTorch原生量化和稀疏性训练与推理库
pytorch
这是由PyTorch团队使用torchao进行量化的Qwen3-8B模型,采用int4仅权重量化和AWQ算法。该模型在H100 GPU上可减少53%显存使用并实现1.34倍加速,专门针对mmlu_abstract_algebra任务进行了校准优化。
SmolLM3-3B-INT8-INT4是基于HuggingFaceTB/SmolLM3-3B模型进行量化的版本,使用torchao实现了8位嵌入、8位动态激活和4位权重线性量化。该模型转换为ExecuTorch格式,通过优化在CPU后端实现高性能,特别适合移动设备部署。
Phi-4-mini-instruct模型经torchao进行float8动态激活和权重量化,在H100上实现36%显存降低和15-20%速度提升,几乎不影响精度。
Bingsu
基于kss数据集训练的Tacotron2韩语文本转语音模型
torchxrayvision
基于DenseNet架构的卷积神经网络,专为X光图像分类任务设计,通过密集块实现层间密集连接。
DenseNet121架构的预训练模型,专用于胸部X光图像分类任务,具有18个输出目标。