微软推出开源框架Agent Lightning,利用强化学习优化多代理系统。该框架无需改动现有架构,可将真实代理行为转化为强化学习过渡,提升大规模语言模型策略性能。它将代理建模为部分可观测马尔可夫决策过程,以当前输入为观察、模型调用为行动,并引入奖励机制。
Runway推出视频模型微调工具,允许合作伙伴针对机器人、教育等垂直行业定制AI模型。通用模型虽强,但在专业领域表现不足,新工具能以更少数据和算力优化性能,简化定制流程,标志着业务向行业应用深化拓展。
谷歌Gemini 3.0 Pro模型开始小范围推送,强化推理和多模态处理能力,预计本月底正式发布。DeepMind团队持续优化AI性能,助力开发者把握技术趋势。
腾讯发布Training-Free GRPO技术,通过外部知识库替代参数微调,在模型参数冻结状态下实现性能优化。该方法将经验知识转化为token级先验信息,显著降低训练成本,在DeepSeek-V3.1-Terminus模型上达到与昂贵微调相当的提升效果。
DeepSeek-V3/R1 推理系统是一个高性能的分布式推理架构,专为大规模 AI 模型优化设计。
Moonlight是一个16B参数的混合专家模型,使用Muon优化器训练,性能优异。
Steev 是一款用于优化 AI 模型训练的工具,帮助用户提升训练效率和模型性能。
百川智能开发的专为医疗场景优化的开源大语言模型,具备卓越的通用能力和医疗领域性能。
nvidia
-
Input tokens/M
Output tokens/M
128k
Context Length
google
mistral
32k
ai21-labs
$3.53
$7.99
260k
nous-research
openai
$3.6
$10.8
4.1k
noctrex
这是PromptCoT-2.0-SelfPlay-30B-A3B模型的MXFP4_MOE量化版本,专门用于文本生成任务。该模型采用了思维链提示和自博弈训练技术,通过量化优化实现了更高效的推理性能。
这是Huihui-gpt-oss-20b-BF16-abliterated-v2模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型通过量化技术减小了模型大小,同时保持了良好的生成性能。
这是GLM-4.5-Air-REAP-82B-A12B模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型基于cerebras的GLM-4.5-Air-REAP-82B-A12B基础模型,通过MXFP4混合专家量化技术实现,在保持性能的同时显著减小模型体积和推理成本。
这是Qwen3-30B-A3B-CoderThinking-YOYO-linear模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该模型通过MXFP4量化技术实现了模型压缩,同时保持了良好的性能表现。
这是阿里巴巴通义深度研究30B-A3B模型的量化版本,采用MXFP4_MOE量化技术并额外添加imatrix量化,旨在优化模型性能和资源使用效率,适用于文本生成任务。
这是Ling-flash-2.0模型的MXFP4_MOE量化版本,专门针对文本生成任务进行了优化。该版本通过MXFP4_MOE量化技术,在保持模型性能的同时显著减小了模型大小,提高了推理效率。
这是SmallThinker - 21BA3B - Instruct模型的MXFP4_MOE量化版本,专门针对特定场景进行了优化,旨在提升模型的性能和推理效率。该量化版本保持了原模型的核心能力,同时在资源消耗和推理速度方面有所改进。
lmstudio-community
Qwen3-VL-8B-Instruct是由Qwen团队开发的多模态视觉语言模型,支持图像文本到文本转换。该版本经过MLX 8位量化处理,专门针对苹果硅芯片进行优化,在保持性能的同时提升运行效率。
NikolayKozloff
UserLM-8b-Q8_0-GGUF 是基于微软 UserLM-8b 模型转换的 GGUF 格式版本,专门针对用户对话场景优化的大语言模型。该模型采用 8 位量化技术,在保持性能的同时显著减小了模型体积,便于在各种硬件上部署运行。
DevQuasar
本项目是Kwaipilot/KAT-Dev的量化版本,致力于让知识为每个人所用。通过量化技术优化模型大小和推理效率,同时保持核心性能。
QuantTrio
GLM-4.6-GPTQ-Int4-Int8Mix是基于zai-org/GLM-4.6基础模型的量化版本,在文本生成任务上表现出色。该模型通过GPTQ量化技术实现了模型大小的优化,同时保持了良好的性能表现。
本项目提供了zai-org/GLM-4.6的量化版本,旨在让知识为每个人所用。这是一个文本生成模型,基于原始GLM-4.6模型进行优化,提供更高效的推理性能。
mlx-community
这是IBM Granite-4.0-h-Tiny模型的4位量化版本,专为Apple Silicon优化,使用MLX框架进行高效推理。模型经过DWQ(动态权重量化)处理,在保持性能的同时显著减小模型大小。
bartowski
这是IBM Granite 4.0 Micro模型的量化版本,使用llama.cpp的imatrix技术进行优化处理,旨在提升模型在特定环境下的运行效率和性能。该版本提供了多种量化级别选择,适用于不同的硬件配置和使用场景。
Downtown-Case
GLM 4.6是一款专为128GB内存+单GPU配置优化的量化模型,采用IQ_K量化方式,相比主流llama.cpp在相同大小下提供更好的质量和性能。该模型需要配合ik_llama.cpp使用,在128GB双通道DDR5内存、单CCD Ryzen 7000处理器+单张3090显卡配置下,文本生成速度可达每秒约6.8个token。
KAT-Dev是由Kwaipilot开发的多语言自然语言处理模型,支持多种语言交互任务,提供高效准确的语言处理能力。该版本经过MLX团队8位量化优化,专门针对苹果硅芯片进行了性能优化。
RedHatAI
这是NVIDIA-Nemotron-Nano-9B-v2模型的FP8动态量化版本,通过将权重和激活量化为FP8数据类型实现优化,显著减少磁盘大小和GPU内存需求约50%,同时保持出色的文本生成性能。
由IBM推出的granite-4.0-h-small语言模型,经过MLX量化优化,专门针对Apple Silicon设备进行性能优化,提供高效的语言处理能力。
mradermacher
Zen-Eco-4B-Instruct是一个4B参数的大语言模型,专门针对指令跟随和工具使用场景进行优化。本项目提供了该模型的多个GGUF量化版本,支持不同的精度和性能需求,便于在各种硬件上部署使用。
FractalAIResearch
Fathom-DeepResearch是一个智能深度研究系统,由两个专门的4B参数模型组成:Fathom-Search-4B针对长时证据搜索优化,Fathom-Synthesizer-4B用于开放式合成和报告生成。该系统在多个搜索密集型基准测试中取得了最先进的性能,并在开放式合成基准测试上超越了多个闭源深度研究代理。
交互式反馈MCP项目,通过集成模型上下文协议(MCP)在关键点提供智能交互反馈,优化AI助手的用户交互流程,减少资源消耗并提升性能。
Ollama-MCP-server是一个连接本地Ollama LLM实例与MCP兼容应用的协议服务器,提供任务分解、结果评估、模型管理等功能,支持标准化通信和性能优化。
PageSpeed MCP服务器是一个连接AI助手与谷歌PageSpeed Insights API的桥梁,为AI模型提供网站性能分析功能,包括核心性能指标、SEO评估、可访问性审计和资源优化建议。
Ultimate MCP Server是一个基于模型上下文协议(MCP)的AI代理操作系统,提供数十种强大工具能力,包括认知增强、工具使用和智能编排等功能。该系统通过标准化MCP工具暴露功能,使高级AI代理能访问丰富的工具生态系统和专业化服务,同时优化成本、性能和质量。
OpenRouter MCP服务器提供与OpenRouter.ai模型生态系统的无缝集成,支持多种AI模型访问和性能优化。
OpenRouter MCP多模态服务器是一个通过OpenRouter.ai提供文本聊天和图像分析功能的协议服务器,支持多种模型选择和性能优化。
Ultimate MCP Server是一个基于模型上下文协议(MCP)的AI代理操作系统,提供丰富的工具集和智能任务委派功能,支持多LLM供应商集成,优化成本与性能,实现复杂工作流自动化。
LLM Gateway是一个基于MCP协议的服务器,支持高级AI代理(如Claude 3.7)将任务智能委托给成本更低的LLM模型(如Gemini Flash),实现成本优化和性能平衡。
Ollama-MCP-server是一个连接本地Ollama大语言模型的中间件服务器,通过Model Context Protocol协议提供任务分解、结果评估和模型管理功能,支持标准化通信和性能优化。