火山引擎推出豆包大模型2.0系列,面向企业和开发者提供API服务,个人用户可通过指定平台体验。该版本针对生产环境优化,具备高效推理、多模态理解与复杂指令执行能力,能更好处理真实世界任务,推理成本显著降低,日均使用量已大幅增长。
MiniMax 发布 M2.5 模型,这是其 M2 系列在 108 天内的第三次升级。模型开源权重同步上线魔搭 ModelScope,在编程、搜索、办公等多场景表现领先,实现了能力、效率与成本的三重突破。该版本提供从零代码使用到私有化部署的全流程方案,并附有工具调用与推理参数调优的实战指南,旨在推动低成本 Agent 时代的到来。M2.5 在多项评测中成绩突出,例如在 SWE-Bench Verified 中表现亮眼。
AI初创公司Modal Labs正寻求新一轮融资,目标估值约25亿美元,较去年9月估值翻倍以上。公司专注于优化AI模型推理成本,即“推理经济学”,在AI推理需求激增的背景下备受关注。
字节跳动正加速自研AI芯片“SeedChip”,计划今年量产至少10万颗,主要面向推理任务,以保障AI算力供应。尽管公司称相关报道“不准确”,但其今年AI采购预算已超1600亿元,半数仍用于购买英伟达芯片,反映出在推进大模型时面临的高推理成本压力。
无限令牌,无限制,成本效益高的LLM推理API平台。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
Moonshot
Bytedance
$0.8
$0.15
$1.5
noctrex
这是一个基于Huihui-MiroThinker-v1.0-30B模型进行的MXFP4_MOE imatrix量化版本,专门针对文本生成任务优化,在保持模型性能的同时显著减小了模型体积和推理成本。
DevQuasar
本项目提供了cerebras/MiniMax-M2-REAP-172B-A10B模型的量化版本,致力于让知识为大众所用。这是一个1720亿参数的大型语言模型,经过优化和量化处理,旨在降低部署成本和提高推理效率。
这是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型基于cerebras的GLM-4.5-Air-REAP-82B-A12B基础模型,通过MXFP4混合专家量化技术实现,在保持性能的同时显著减小模型体积和推理成本。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
Qwen3-Nemotron-32B-RLBFF是基于Qwen/Qwen3-32B微调的大语言模型,通过强化学习反馈技术显著提升了模型在默认思维模式下生成回复的质量。该模型在多个基准测试中表现出色,同时保持较低的推理成本。
huihui-ai
这是基于Huihui-gpt-oss-20b-BF16-abliterated-v2的mxfp4量化版本,专门用于文本生成任务。该模型采用了MXFP4量化技术,在保持性能的同时显著减小了模型大小和推理成本,支持多种部署方式包括QAT、ollama和GGUF格式。
本项目是阿里巴巴通义深度研究30B模型的A3B量化版本,旨在通过量化技术降低模型部署成本,让知识为每个人所用。该模型基于30B参数规模的大语言模型进行优化,保持了原模型的强大能力同时提升了推理效率。
facebook
MobileLLM-R1是MobileLLM系列中的高效推理模型,专门针对数学、编程和科学问题进行优化,在参数规模更小的情况下实现了更高的准确率,具有低训练成本和高效率的特点。
amd
PARD是一种高性能的推测解码方法,能够以低成本将自回归草稿模型转换为并行草稿模型,显著提升大语言模型的推理速度,降低部署复杂度和适配成本。
FractalAIResearch
以499美元训练成本实现的14B参数数学推理模型,在16K上下文窗口下达到媲美闭源o4-mini的性能
Fathom-R1-14B是一个基于R1-distilled-14B模型的项目,以499美元的低训练成本在16K上下文下实现o4-mini水平的数学推理能力。