印度支付巨头Paytm与美国硬件公司Groq合作,将利用GroqCloud云端服务提升AI模型性能,优化交易处理、风险评估、欺诈检测和消费者互动。GroqCloud基于自主研发的语言处理单元,专注于AI推理,旨在增强Paytm平台的智能化水平。
微软Azure ND GB300v6虚拟机在Llama270B模型上创下每秒110万token推理速度新纪录。该成就基于与英伟达的深度合作,采用配备72个Blackwell Ultra GPU和36个Grace CPU的NVIDIA GB300NVL72系统,突显微软在规模化AI运算领域的专业实力。
蚂蚁数科在香港金融科技节推出“多语种多模态大模型训练框架”,旨在解决大模型在多语言环境的应用瓶颈。传统英文大模型在小语种中易出现语言错乱和推理混乱,限制全球化发展。该框架通过优化多语种处理能力,提升模型在多样化语言环境下的表现,推动AI技术更广泛高效地服务于全球各行业。
在美的“远见者大会”上,徐翼介绍了新一代AI交互系统Home AI。该系统通过“连接—感知—推理—执行”闭环,实现智能联动家电设备,并基于用户习惯自动优化,提升人机交互体验。
Google基于Gemini 3 Pro的AI图像编辑器,推理强,生成编辑能力出色
全球首个推理AI视频模型Ray3,可从文本提示创建4K HDR视频
全球首个带推理智能与16位HDR输出的AI视频模型,创作高效专业
Ray 3 AI将文本转化为4K HDR视频,具备智能推理和多种特色功能。
deepseek
$3.6
输入tokens/百万
$15.48
输出tokens/百万
128k
上下文长度
google
$2.16
$18
1M
anthropic
$108
$540
200k
chatglm
$0.43
$1.01
131.1k
minimax
-
moonshotai
$4.1
$16.56
xai
$21.6
upstage
64k
2M
reka-ai
65.5k
$0.72
$2.88
智谱ai
$4.5
$22.5
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
TheStageAI
TheWhisper-Large-V3-Turbo 是 OpenAI Whisper Large V3 模型的高性能微调版本,由 TheStage AI 针对多平台实时、低延迟和低功耗语音转文本推理进行优化。支持流式转录、单词时间戳和可扩展性能,适用于实时字幕、会议和设备端语音界面等场景。
TheWhisper-Large-V3是OpenAI Whisper Large V3模型的高性能微调版本,由TheStage AI针对多平台(NVIDIA GPU和Apple Silicon)的实时、低延迟和低功耗语音转文本推理进行了优化。
Mungert
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究代理模型,结合了AI反馈强化学习(RLAIF)和强大的推理框架,能够在工具增强的大语言模型中实现可靠、对齐和可扩展的研究级推理,适用于复杂的多步骤研究工作流程。
LiquidAI
LFM2-VL-3B是Liquid AI开发的多模态视觉语言模型,基于LFM2骨干架构构建,具备强大的视觉理解和推理能力,特别在细粒度感知任务上表现出色。该模型能够高效处理文本和图像输入,支持高达512×512分辨率的原生图像处理。
PokeeAI
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究智能体,结合基于AI反馈的强化学习(RLAIF)与推理框架,能够执行复杂的多步骤研究工作流程,包括自我修正、验证和综合分析。
bullpoint
GLM-4.6-AWQ是对智谱AI的GLM-4.6(357B MoE)进行高性能AWQ量化的模型,专为vLLM推理进行了优化,能有效提升生产部署的吞吐量。该模型采用4位量化技术,在保持高精度的同时显著减少显存占用。
GLM-4.6是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个方面有显著改进,包括更长的上下文窗口、更优的编码性能和更强的推理能力。该模型在多个公开基准测试中表现出色,与国内外领先模型相比具有竞争优势。
GLM-4.6是智谱AI开发的新一代大语言模型,相比GLM-4.5在上下文处理、编码能力和推理性能方面有显著提升。该模型支持200K上下文长度,在多个公开基准测试中表现出色,特别在代码生成、推理和代理任务方面具有竞争优势。
zai-org
GLM-4.6是智谱AI推出的新一代文本生成模型,相比GLM-4.5在上下文处理、编码性能、推理能力等方面实现显著提升,支持200K上下文长度,具备更强的智能体能力和精致的写作能力。
GLM-4.6-FP8是智谱AI推出的新一代文本生成模型,相比GLM-4.5在多个关键方面有显著改进。该模型具有更长的上下文窗口、卓越的编码性能、高级推理能力和更强大的智能体功能,能够处理更复杂的任务。
geoffmunn
这是Qwen/Qwen3-0.6B语言模型的GGUF量化版本,一个拥有6亿参数的紧凑大语言模型,专为在低资源设备上进行超快速推理而设计。支持llama.cpp、LM Studio、OpenWebUI和GPT4All等框架,可在任何地方离线使用私有AI。
nvidia
NVIDIA Qwen3-32B FP4模型是阿里云Qwen3-32B模型的量化版本,使用优化的Transformer架构,通过将权重和激活量化为FP4数据类型实现高效推理。该模型支持商业和非商业用途,适用于各种AI应用场景。
NVIDIA Qwen3-14B FP4模型是阿里巴巴Qwen3-14B模型的量化版本,采用FP4数据类型进行优化,通过TensorRT-LLM进行高效推理。该模型专为NVIDIA GPU加速系统设计,适用于AI Agent系统、聊天机器人、RAG系统等多种AI应用场景,支持全球范围内的商业和非商业使用。
anikifoss
这是对Moonshot AI的Kimi-K2-Instruct-0905模型的高质量量化版本,采用HQ4_K量化方法,专门优化了推理性能,支持75000上下文长度,适用于文本生成任务。
samunder12
基于Llama 3.1 8B Instruct微调的GGUF量化模型,具有强势、果断且具有挑衅性的AI人设,专为角色扮演和创意写作场景优化,支持在CPU或GPU上进行本地推理。
Jackmin108
GLM-4.5-Air是智谱AI推出的适用于智能体的基础模型,采用紧凑设计,统一了推理、编码和智能体能力,能满足智能体应用的复杂需求。该模型参数量适中且效率优越,已开源多种版本,可用于商业和二次开发。
kurakurai
Luth-LFM2-350M 是与 Liquid AI 合作开发的法语优化语言模型,基于 LFM2-350M 在 Luth-SFT 数据集上进行法语微调。该模型在保持英语能力的同时,显著提升了法语指令遵循、数学推理和常识问答能力。
mlx-community
基于智谱AI GLM-4.5-Air模型转换的3位深度量化权重(Deep Weight Quantization)版本,专为MLX框架优化,在保持较高性能的同时显著减少模型大小和推理资源需求
cpatonn
GLM-4.5V-AWQ-4bit是基于智谱AI下一代旗舰文本基础模型构建的量化版本多模态模型,通过AWQ-4bit量化技术优化,在保持优异性能的同时显著降低计算资源需求。该模型在42个公开视觉语言基准测试中达到同规模模型的SOTA性能,具备强大的视觉推理能力。
Perplexity MCP Server是一个智能研究助手,利用Perplexity的AI模型自动分析查询复杂度并选择最佳模型处理请求,支持搜索、推理和深度研究三种工具。
Perplexity MCP Server是一个智能研究助手,利用Perplexity的AI模型提供自动查询复杂度检测和最优模型路由功能,支持搜索、推理和深度研究三种工具。
结合DeepSeek推理与Claude生成的两阶段AI对话服务
一个基于量子场计算模型的Claude多实例协同推理服务器,通过场一致性优化实现增强型AI推理能力。
Think MCP是一个实现MCP服务器的项目,提供'think'工具以支持AI代理在复杂任务中进行结构化推理,灵感来自Anthropic的研究。该工具通过记录思考过程帮助AI处理信息、回溯或遵守策略,适用于工具输出分析、策略密集环境和顺序决策场景。
Perplexity MCP Server是一个用Go编写的中间件服务器,为AI助手(如Claude和Cursor)提供无缝访问Perplexity API的能力,包括实时搜索和复杂推理功能。
GemForge是将Google的Gemini AI与MCP生态系统连接的企业级工具,提供实时网络访问、高级推理、代码分析和多文件处理等功能,支持60多种文件格式,具备智能模型选择和强大的错误处理机制。
一个增强AI模型推理能力的MCP服务器,通过结构化检索和动态思维链提升问题解决能力。
一个由Claude构建的DeepSeek推理服务项目
一个为Cursor AI中的Claude提供高级推理能力的MCP服务器,包含多种推理方法如蒙特卡洛树搜索、束搜索和Transformer混合推理等。
Smart-Thinking是一个先进的MCP服务器,提供多维、自适应且可自验证的AI推理框架,采用基于图形的架构实现复杂思维连接,支持跨平台运行并与多种MCP客户端兼容。
该项目是一个基于Model Context Protocol (MCP)的stdio服务器,用于将提示转发至OpenAI的ChatGPT (GPT-4o),支持高级摘要、分析和推理功能,适用于LangGraph框架的助手集成。
基于Anthropic研究的MCP服务器,为Claude AI提供'think'工具能力,增强复杂推理任务处理。
GemForge是将谷歌Gemini AI与MCP生态系统连接的企业级工具,提供实时网络访问、高级推理、代码分析和多文件处理等功能,支持60多种文件格式,具备智能模型选择和强大的错误处理机制。
基于Gemini API的高级推理与反思工具,支持多模型集成与自定义配置
一个基于Replicate API的FastMCP服务器实现,专注于提供资源化的AI模型推理访问,特别擅长图像生成功能。
Deepseek Thinker MCP Server是一个提供Deepseek推理内容的MCP服务,支持OpenAI API和本地Ollama两种模式,可集成到AI客户端中。
Smart-Thinking是一个先进的MCP服务器,提供多维、自适应且可自我验证的AI推理框架。
MCP Thought Server是一个为AI代理提供高级思维工具的服务,通过模型上下文协议(MCP)增强推理、规划和迭代优化能力。它包含结构化思维、迭代草稿和集成思维等工具,支持SQLite持久化和高级置信度评分系统,可配置环境变量以适应不同需求。
MCP双循环推理器是一个为自主AI代理设计的元认知增强工具,通过双循环框架(哨兵监控和裁决器管理)实现异常检测和经验学习,提升代理的自我意识和可靠性。