近日,开源项目BrowserUse发布自研大语言模型BU-30B-A3B-Preview,被誉为网页代理领域新标杆。该模型采用混合专家(MoE)架构,总参数达300亿,但推理时仅激活部分参数,兼顾强大性能与轻量化运行,显著降低了AI浏览器操作的成本与门槛。
Perplexity AI平台于12月18日宣布,其Pro和Max订阅用户现已全面接入谷歌最新轻量级模型Gemini3Flash。该模型主打低延迟与高吞吐,在保持强大语言理解能力的同时,显著优化了推理成本和响应速度。此次更新旨在为用户提供更快速、流畅的搜索体验,标志着平台在提升响应效率方面迈出关键一步。
字节跳动在火山引擎大会上发布豆包大模型1.8和视频生成模型Seedance 1.5 Pro,并推出“AI节省计划”以降低企业成本。豆包大模型在推理、多语言等方面显著提升,Seedance则优化了视频生成质量与时长。
AWS在re:Invent2025大会上推出四款自研“Nova2”系列大模型,覆盖文本、图像、视频、语音多模态场景,并首次内置网页检索与代码执行能力,宣称在价格性能比上达到业界领先。其中,Nova2 Lite定位高性价比推理,在多项基准测试中表现优于Claude Haiku4.5和GPT-5Mini,成本仅为后者约50%;Nova2 Pro则面向复杂Agent任务。
无限令牌,无限制,成本效益高的LLM推理API平台。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Moonshot
Bytedance
$0.8
$0.15
$1.5
noctrex
这是一个基于Huihui-MiroThinker-v1.0-30B模型进行的MXFP4_MOE imatrix量化版本,专门针对文本生成任务优化,在保持模型性能的同时显著减小了模型体积和推理成本。
DevQuasar
本项目提供了cerebras/MiniMax-M2-REAP-172B-A10B模型的量化版本,致力于让知识为大众所用。这是一个1720亿参数的大型语言模型,经过优化和量化处理,旨在降低部署成本和提高推理效率。
这是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型基于cerebras的GLM-4.5-Air-REAP-82B-A12B基础模型,通过MXFP4混合专家量化技术实现,在保持性能的同时显著减小模型体积和推理成本。
nvidia
NVIDIA-Nemotron-Nano-VL-12B-V2-FP4-QAD 是 NVIDIA 推出的自回归视觉语言模型,基于优化的 Transformer 架构,能够同时处理图像和文本输入。该模型采用 FP4 量化技术,在保持性能的同时显著减少模型大小和推理成本,适用于多种多模态应用场景。
Qwen3-Nemotron-32B-RLBFF是基于Qwen/Qwen3-32B微调的大语言模型,通过强化学习反馈技术显著提升了模型在默认思维模式下生成回复的质量。该模型在多个基准测试中表现出色,同时保持较低的推理成本。
huihui-ai
这是基于Huihui-gpt-oss-20b-BF16-abliterated-v2的mxfp4量化版本,专门用于文本生成任务。该模型采用了MXFP4量化技术,在保持性能的同时显著减小了模型大小和推理成本,支持多种部署方式包括QAT、ollama和GGUF格式。
本项目是阿里巴巴通义深度研究30B模型的A3B量化版本,旨在通过量化技术降低模型部署成本,让知识为每个人所用。该模型基于30B参数规模的大语言模型进行优化,保持了原模型的强大能力同时提升了推理效率。
facebook
MobileLLM-R1是MobileLLM系列中的高效推理模型,专门针对数学、编程和科学问题进行优化,在参数规模更小的情况下实现了更高的准确率,具有低训练成本和高效率的特点。
amd
PARD是一种高性能的推测解码方法,能够以低成本将自回归草稿模型转换为并行草稿模型,显著提升大语言模型的推理速度,降低部署复杂度和适配成本。
FractalAIResearch
以499美元训练成本实现的14B参数数学推理模型,在16K上下文窗口下达到媲美闭源o4-mini的性能
Fathom-R1-14B是一个基于R1-distilled-14B模型的项目,以499美元的低训练成本在16K上下文下实现o4-mini水平的数学推理能力。