Best 推理芯片 AI Tools & Models - Premium 推理芯片 News

AI News

国产AI推理芯片新锐曦望一年融资近30亿元，获国资+产业+VC三方重注，加速GPU量产与生态突围

曦望（Sunrise）作为AI推理专用GPU芯片公司，在成立一年内完成近30亿元融资，创国内AI芯片初创企业早期融资纪录。此轮融资汇聚产业资本、头部VC/PE及国家级基金，显示市场对其技术及国产替代前景的认可。投资方包括三一集团旗下华胥基金等，凸显高端制造与AI芯片的战略协同。

11.9k 3 hours ago

国产算力新突破！摩尔线程×硅基流动在MTT S5000上实现DeepSeek V3 671B满血版高效推理，单卡性能逼近国际顶尖水平

国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000，成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术，实现单卡预填充吞吐量超4000 tokens/秒，解码吞吐量超1000 tokens/秒，推理速度已接近国际主流高端AI加速器水平。

13.2k 17 minutes ago

百亿美元押注“晶圆级巨芯”！OpenAI联手Cerebras打造全球最大AI推理平台，15倍速挑战英伟达霸权

OpenAI与Cerebras合作，将部署750兆瓦的Cerebras晶圆级系统，打造全球最大AI推理平台。项目2026年启动，2028年全面投产，交易额超100亿美元。Cerebras芯片集成4万亿晶体管，面积远超传统GPU，此举显示大模型厂商正加速摆脱对传统GPU的依赖。

11.9k 37 minutes ago

叫板英伟达?OpenAI联手芯片黑马Cerebras，开启低延迟推理新纪元

OpenAI与芯片制造商Cerebras达成多年合作，旨在通过专用芯片技术提升AI响应速度。协议总价值超100亿美元，Cerebras将在2028年前向OpenAI提供高达750兆瓦的计算能力。

9.7k 3 hours ago

AI Products

MTIA

Meta自研的下一代AI训练和推理加速芯片

硬件基础设施

9.7k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Input tokens/M

Output tokens/M

256

Context Length

Kimi-K2

Moonshot

Input tokens/M

$16

Output tokens/M

256

Context Length

Doubao-1.5-pro-32k

Bytedance

$0.8

Input tokens/M

Output tokens/M

128

Context Length

qwen-vl-plus

Alibaba

$0.8

Input tokens/M

Output tokens/M

128

Context Length

Qianfan-VL-8B

Baidu

Input tokens/M

Output tokens/M

Context Length

Qianfan-VL-70B

Baidu

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

国产AI推理芯片新锐曦望一年融资近30亿元，获国资+产业+VC三方重注，加速GPU量产与生态突围

国产算力新突破！摩尔线程×硅基流动在MTT S5000上实现DeepSeek V3 671B满血版高效推理，单卡性能逼近国际顶尖水平

百亿美元押注“晶圆级巨芯”！OpenAI联手Cerebras打造全球最大AI推理平台，15倍速挑战英伟达霸权

叫板英伟达?OpenAI联手芯片黑马Cerebras，开启低延迟推理新纪元

AI Products

MTIA

Models

GPT-4.1 mini

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-coder-plus

qwen3-vl-plus

qwen3-max

Qianfan-Lightning

qwen3-vl-235b-a22b-thinking

Qwen3-Next-80B-A3B-Instruct

Kimi-K2

Doubao-1.5-pro-32k

qwen-vl-plus

Qianfan-VL-8B

Qianfan-VL-70B

VibeThinker 1.5B Mlx 4bit

Falcon H1 34B Instruct Mlx 8Bit

Granite 4.0 H 1b 8bit

GLM 4.5 Air REAP 82B A12B Mlx 4Bit

LFM2 8B A1B 8bit MLX

Granite 4.0 H Tiny 5bit MLX

Granite 4.0 H Tiny 3bit MLX

Apriel 1.5 15b Thinker 6bit MLX

MinerU2.5 2509 1.2B Mlx Fp16

Jinx Gpt Oss 20b Mxfp4 Mlx

Qwen3 Next 80B A3B Instruct MLX 4bit

Qwen3 Next 80B A3B Thinking Mxfp4 Mlx

Embeddinggemma 300m Bf16

Llama 3_3 Nemotron Super 49B V1_5 Mlx 8Bit

DeepSeek V3.1 Base 4bit

Gpt Oss 120b 3bit

GLM 4.5 Air 3bit DWQ

Qwen3 235B A22B Thinking 2507 Mixed 3 5bit

Qwen3 235B A22B Thinking 2507 MLX 6bit

Qwen3 235B A22B Thinking 2507 MLX 4bit