Best 推理加速 AI Tools & Models - Premium 推理加速 News

AI News

摩尔线程发布国产 AI 编程服务:软硬协同助推开发生态变革

摩尔线程发布AI Coding Plan智能编程服务，基于国产GPU MTT S5000提供算力支撑，结合硅基流推理加速技术，旨在革新软件开发模式，提升国内AI编程渗透率。

国产AI推理芯片新锐曦望一年融资近30亿元，获国资+产业+VC三方重注，加速GPU量产与生态突围

曦望（Sunrise）作为AI推理专用GPU芯片公司，在成立一年内完成近30亿元融资，创国内AI芯片初创企业早期融资纪录。此轮融资汇聚产业资本、头部VC/PE及国家级基金，显示市场对其技术及国产替代前景的认可。投资方包括三一集团旗下华胥基金等，凸显高端制造与AI芯片的战略协同。

12.3k 17 hours ago

国产算力新突破！摩尔线程×硅基流动在MTT S5000上实现DeepSeek V3 671B满血版高效推理，单卡性能逼近国际顶尖水平

国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000，成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术，实现单卡预填充吞吐量超4000 tokens/秒，解码吞吐量超1000 tokens/秒，推理速度已接近国际主流高端AI加速器水平。

13.2k 26 minutes ago

百亿美元押注“晶圆级巨芯”！OpenAI联手Cerebras打造全球最大AI推理平台，15倍速挑战英伟达霸权

OpenAI与Cerebras合作，将部署750兆瓦的Cerebras晶圆级系统，打造全球最大AI推理平台。项目2026年启动，2028年全面投产，交易额超100亿美元。Cerebras芯片集成4万亿晶体管，面积远超传统GPU，此举显示大模型厂商正加速摆脱对传统GPU的依赖。

13.5k 1 days ago

AI Products

Procyon AI Image Generation Benchmark

用于衡量设备 AI 加速器推理性能的基准测试工具。

AI模型

9.3k

ReDrafter

NVIDIA GPU上加速LLM推理的创新技术

开发与工具

7.1k

FastVideo

开源框架，加速大型视频扩散模型

视频生成

12.5k

Star-Attention

高效长序列大型语言模型推理技术

模型训练与部署

10.1k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Input tokens/M

Output tokens/M

256

Context Length

Kimi-K2

Moonshot

Input tokens/M

$16

Output tokens/M

256

Context Length

Doubao-1.5-pro-32k

Bytedance

$0.8

Input tokens/M

Output tokens/M

128

Context Length

qwen-vl-plus

Alibaba

$0.8

Input tokens/M

Output tokens/M

128

Context Length

Qianfan-VL-8B

Baidu

Input tokens/M

Output tokens/M

Context Length

Qianfan-VL-70B

Baidu

Input tokens/M

Output tokens/M

Context Length

MCP

Ai00 Rwkv Server

AI00 RWKV Server是一个基于RWKV语言模型的高效推理API服务器，支持Vulkan加速和OpenAI兼容接口。

rust

7.7k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

摩尔线程发布国产 AI 编程服务:软硬协同助推开发生态变革

国产AI推理芯片新锐曦望一年融资近30亿元，获国资+产业+VC三方重注，加速GPU量产与生态突围

国产算力新突破！摩尔线程×硅基流动在MTT S5000上实现DeepSeek V3 671B满血版高效推理，单卡性能逼近国际顶尖水平

百亿美元押注“晶圆级巨芯”！OpenAI联手Cerebras打造全球最大AI推理平台，15倍速挑战英伟达霸权

AI Products

Procyon AI Image Generation Benchmark

ReDrafter

FastVideo

Star-Attention

Models

GPT-4.1 mini

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

Qianfan-Lightning

qwen3-max

Qwen3-Next-80B-A3B-Instruct

Kimi-K2

Doubao-1.5-pro-32k

qwen-vl-plus

Qianfan-VL-8B

Qianfan-VL-70B

Z Image Re Turbo LoRA

Qwen3 Next 80B A3B Instruct Bnb 4bit

Qwen3 14B FP4

Qwen3 14B NVFP4

Qwen3 Next 80B A3B Instruct

MiniCPM4 8B

InternVL3 38B FP8 Dynamic

PARD Llama 3.2 1B

MiniCPM S 1B Sft

TDM_CogVideoX 2B_LoRA

Phi 4 Multimodal Instruct Onnx

DeepSeek R1 Distill Qwen 1.5B Quantized.w4a16

DeepSeek R1 Distill Llama 70B Quantized.w4a16

DeepSeek R1 Distill Qwen 32B FP8 Dynamic

ESM2 650M

Bigvgan_v2_22khz_80band_fmax8k_256x

Phi 3 Mini 4k Instruct Onnx Web

Hyper SD

Llama 2 7b Ultrachat200k

Bge Small En V1.5

MCP

Ai00 Rwkv Server