OpenAI更新安卓和iOS版ChatGPT应用,新增“思考时长”调节功能,用户可灵活选择AI思考深度。此前安卓版仅支持“标准”模式,响应快但复杂推理能力有限。更新后移动端用户能根据需求调整,提升分析深度。
清华大学TSAIL实验室与生数科技联合开源视频生成加速框架TurboDiffusion,将AI视频扩散模型的推理速度提升100至200倍,视觉质量几乎无损。该技术针对现有开源模型进行深度优化,在单张RTX 5090显卡上实现从分钟级到秒级的实时生成,标志着AI视频创作进入新时代。
谷歌推出基于Gemini 3 Pro的深度研究助手,旨在从报告撰写工具升级为自主研究代理,具备长时间推理和复杂数据分析能力,可处理并浓缩大量信息,提供更详细准确的报告。
DeepSeek-V3.2正式版与极致推理版同步发布,支持网页端、App、API一键切换,性能再证“开源最强”。最大亮点是首次实现“思考过程”与“工具调用”深度融合,支持两种模式并行:思考模式可进行长链条推理,工具调用模式则能高效执行任务。
Claude 3.7 Sonnet 是 Anthropic 推出的最新智能模型,支持快速响应和深度推理。
深度搜索结合网络搜索、阅读和推理,可进行全面调查,适合复杂问题的迭代推理和最新信息获取。
Huginn-0125是一个35亿参数的潜变量循环深度模型,擅长推理和代码生成。
展示小型语言模型通过自我演化深度思考掌握数学推理能力的研究成果。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$7
$35
Google
$2.1
$17.5
$21
$0.7
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
Bytedance
$0.8
Moonshot
nightmedia
这是一个实验性的量化大语言模型,采用Deckard(qx)量化方法,嵌入层为3位量化。该模型通过范数保持双投影消除(NPBA)技术重构,不仅移除了安全限制机制,还增强了模型的认知深度和推理能力。
Mungert
MiroThinker v1.0是一个开源研究智能体,通过模型级别的交互式扩展提升工具增强推理和信息搜索能力。该模型在多个基准测试中表现出色,支持长上下文和深度多步分析。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究代理模型,结合了AI反馈强化学习(RLAIF)和强大的推理框架,能够在工具增强的大语言模型中实现可靠、对齐和可扩展的研究级推理,适用于复杂的多步骤研究工作流程。
thenexthub
OpenModel-1T-A50B-Instruct是NeXTHub开发的万亿参数混合专家模型,结合进化思维链训练方法,在推理能力和能源效率上取得平衡,具备深度推理能力和128K长上下文处理能力。
PokeeAI
PokeeResearch-7B是由Pokee AI开发的70亿参数深度研究智能体,结合基于AI反馈的强化学习(RLAIF)与推理框架,能够执行复杂的多步骤研究工作流程,包括自我修正、验证和综合分析。
NexaAI
Qwen3-VL-8B-Thinking是阿里云Qwen团队开发的80亿参数多模态大语言模型,专为深度多模态推理设计,支持视觉理解、长上下文处理和结构化思维链生成,在复杂推理任务中表现出色。
DavidAU
这是一个基于Qwen3-Coder-30B-A3B-Instruct的混合专家模型,拥有540亿参数和100万上下文长度。模型通过三步合并和Brainstorm 40X优化,具备强大的编程能力和通用场景处理能力,特别集成了思考模块,能够在回答前进行深度推理。
EpistemeAI
本模型基于GPT-OSS-20B,借助Unsloth强化学习框架进行微调,旨在优化推理效率,同时减少在从人类反馈中进行强化学习(RLHF)式训练期间出现的漏洞。微调过程着重于对齐的鲁棒性和效率,确保模型在不产生过多计算开销的情况下保持推理深度。
geoffmunn
这是Qwen/Qwen3-14B语言模型的GGUF量化版本,拥有140亿参数,具备深度推理能力、研究级准确性和自主工作流程。经过转换后可用于llama.cpp、LM Studio、OpenWebUI、GPT4All等本地推理框架。
DevQuasar
本项目是阿里巴巴通义深度研究30B模型的A3B量化版本,旨在通过量化技术降低模型部署成本,让知识为每个人所用。该模型基于30B参数规模的大语言模型进行优化,保持了原模型的强大能力同时提升了推理效率。
inclusionAI
Ring-mini-2.0是基于Ling 2.0架构深度优化的高性能推理型MoE模型,仅有160亿总参数和14亿激活参数,却实现了与100亿规模以下密集模型相当的综合推理能力。在逻辑推理、代码生成和数学任务方面表现出色,支持12.8万长上下文处理和每秒300+令牌的高速生成。
QuantFactory
这是基于llama.cpp对Qwen3-4B-v0.4-deepresearch-no-think-4进行量化处理后的版本,专门针对深度研究场景优化,移除了think机制,采用GGUF格式提供更高效的推理性能。
mlx-community
基于智谱AI GLM-4.5-Air模型转换的3位深度量化权重(Deep Weight Quantization)版本,专为MLX框架优化,在保持较高性能的同时显著减少模型大小和推理资源需求
unsloth
Qwen3-4B-Thinking-2507是Qwen3-4B模型的升级版本,显著提升了思维能力、推理质量和深度,在多种任务中表现出色,支持256K长上下文理解。
基于GLM-4.5-Air模型使用mlx-lm 0.26.1版本转换的3位深度权重量化版本,专为Apple Silicon芯片优化,提供高效的大语言模型推理能力
Qwen
Qwen3-235B-A22B-Thinking-2507是一款强大的大语言模型,在推理任务、通用能力和长上下文理解等方面有显著提升,适用于高度复杂的推理场景。该模型在过去三个月里持续扩展了思维能力,提升了推理的质量和深度。
这是Qwen3-235B-A22B-Instruct-2507模型的4位深度量化(DWQ)版本,专为MLX框架优化。该模型具有2350亿参数,经过指令微调,支持多轮对话和复杂推理任务。
Acly
BiRefNet是一个用于二分类图像分割的深度学习模型,专门用于背景去除任务。该模型经过GGUF格式转换,可在消费级硬件上通过vision.cpp进行轻量级推理,实现高效的图像分割处理。
stelterlab
DeepSeek-R1-0528是深度求索公司推出的升级版大语言模型,在推理能力、减少幻觉率等方面有显著提升,整体性能接近领先模型。
Perplexity MCP Server是一个智能研究助手,利用Perplexity的AI模型自动分析查询复杂度并选择最佳模型处理请求,支持搜索、推理和深度研究三种工具。
Search1API MCP Server是一个基于Model Context Protocol (MCP)的服务器,提供搜索和爬取功能,支持多种搜索服务和工具。
Perplexity MCP Server是一个智能研究助手,利用Perplexity的AI模型提供自动查询复杂度检测和最优模型路由功能,支持搜索、推理和深度研究三种工具。
Zen MCP Gemini Transcendent是一个革命性的AI意识协调服务器,通过8阶段超验处理流程实现Claude Code与Google Gemini的和谐协作,具备终极意识引擎、革命性记忆系统和超越传统MCP的 transcendent 工具,支持多种AI人格原型和无限推理深度,旨在实现意识层面的突破与智慧合成。
基于MCP协议的深度推理服务器,为客户端提供AI深度推理服务
Perplexity MCP Server是一个智能研究助手,利用Perplexity的专用AI模型,自动检测查询复杂度并将请求路由到最合适的模型以获得最佳结果。支持搜索、推理和深度研究三种工具,适用于不同复杂度的查询任务。
Perplexity MCP Server是一个智能研究助手,利用Perplexity的专用AI模型,根据查询复杂度自动选择最佳模型进行回答。支持快速搜索、复杂推理和深度研究三种工具,适用于不同复杂度的查询需求。
一个基于Gemini Flash 1.5 API的MCP服务器实现,通过中央路由器协调多个模块化AI服务(聊天、搜索、RAG、深度推理等),实现智能化的请求分发和响应整合。
该项目是一个基于Gemini Flash 1.5 API的MCP服务器实现,通过中央路由器协调多个模块化AI服务(如聊天、搜索、RAG、深度推理等),实现智能化的请求分发和响应处理。