Best 长上下文推理 AI Tools & Models - Premium 长上下文推理 News

AI News

腾讯推出最新开源语言模型 Hy3 Preview，引领智能时代新潮流

腾讯发布开源AI模型Hy3Preview，参数达295亿，支持长上下文，在推理、指令遵循和代码处理等方面表现提升，强调实用性、真实评测和高性价比。

谷歌 TurboQuant 重磅发布：LLM 键值缓存内存压缩 6 倍、速度提升 8 倍，零精度损失、无需训练！

谷歌推出TurboQuant算法，通过PolarQuant和QJL技术，将大语言模型推理中的键值缓存内存需求降低至少6倍，在H100 GPU上注意力计算速度提升最高8倍，且保持零精度损失。这一突破有望降低AI部署成本，加速长上下文应用发展。

19.6k 21 hours ago

千问Qwen3.5-Plus除夕开源登顶全球最强开源大模型

2026年除夕，阿里巴巴开源新一代大模型千问Qwen3.5-Plus，性能媲美Gemini3Pro，成为全球最强开源大模型。该模型采用底层架构革新，参数3970亿但激活仅170亿，以更小规模超越万亿参数的Qwen3-Max，部署显存占用降低60%，长上下文推理吞吐量提升19倍。API成本低至每百万Token 0.8元，仅为Gemini3Pro的1/18。此外，它实现了从纯文本到原生多模态的跃迁。

19.5k 2 days ago

小米发布新一代 MoE 大模型 MiMo-V2-Flash，助力 AGI 发展

小米新任大模型负责人罗福莉在2025小米生态大会上，正式发布全新MoE大模型MiMo-V2-Flash。该模型采用Hybrid SWA架构，设计简洁优雅，在长上下文推理方面表现突出，标志着小米向人工通用智能（AGI）目标迈出重要一步。

18.8k 2 hours ago

AI Products

MInference

加速长上下文大型语言模型的推理过程

AI 模型推理训练

11.4k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Input tokens/M

Output tokens/M

256

Context Length

Kimi-K2

Moonshot

Input tokens/M

$16

Output tokens/M

256

Context Length

Doubao-1.5-pro-32k

Bytedance

$0.8

Input tokens/M

Output tokens/M

128

Context Length

Qianfan-VL-70B

Baidu

Input tokens/M

Output tokens/M

Context Length

Grok Code Fast 1

Xai

$1.4

Input tokens/M

$10.5

Output tokens/M

256

Context Length

Hunyuan-T1-20250822

Tencent

Input tokens/M

Output tokens/M

Context Length

Hunyuan-T1-latest

Tencent

Input tokens/M

Output tokens/M

Context Length

DeepSeek-V3.1

Deepseek

Input tokens/M

$12

Output tokens/M

128

Context Length

qwen-deep-research

Alibaba

$54

Input tokens/M

$163

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

腾讯推出最新开源语言模型 Hy3 Preview，引领智能时代新潮流

谷歌 TurboQuant 重磅发布：LLM 键值缓存内存压缩 6 倍、速度提升 8 倍，零精度损失、无需训练！

千问Qwen3.5-Plus除夕开源 登顶全球最强开源大模型

小米发布新一代 MoE 大模型 MiMo-V2-Flash，助力 AGI 发展

AI Products

MInference

Models

GPT-4.1 mini

Grok 4 Fast

GPT-5 Codex

Claude Haiku 4.5

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-coder-plus

qwen3-vl-235b-a22b-thinking

Qianfan-Lightning

qwen3-max

Qwen3-Next-80B-A3B-Instruct

Kimi-K2

Doubao-1.5-pro-32k

Qianfan-VL-70B

Grok Code Fast 1

Hunyuan-T1-20250822

Hunyuan-T1-latest

DeepSeek-V3.1

qwen-deep-research

GigaChat3 10B A1.8B Bf16

MiroThinker V1.0 30B GGUF

Qwen3 VL 4B Instruct

Qwen3 VL 30B A3B Instruct 1M GGUF

Qwen3 VL 32B Thinking 1M GGUF

Qwen3 VL 8B Thinking 1M GGUF

Qwen3 VL 32B Instruct 1M GGUF

Qwen3 VL 4B Thinking 1M GGUF

Qwen3 VL 2B Thinking 1M GGUF

Qwen3 VL 30B A3B Thinking GGUF

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 8B Thinking GGUF

Qwen3 VL 32B Thinking GGUF

Qwen3 VL 32B Instruct GGUF

Qwen3 VL 8B Instruct GGUF

Qwen3 VL 32B Thinking GGUF

Qwen3 VL 32B Instruct GGUF

Qwen3 VL 30B A3B Thinking GGUF

Qwen3 VL 8B Instruct GGUF

Qwen3 VL 4B Thinking GGUF

千问Qwen3.5-Plus除夕开源登顶全球最强开源大模型