曦望(Sunrise)作为AI推理专用GPU芯片公司,在成立一年内完成近30亿元融资,创国内AI芯片初创企业早期融资纪录。此轮融资汇聚产业资本、头部VC/PE及国家级基金,显示市场对其技术及国产替代前景的认可。投资方包括三一集团旗下华胥基金等,凸显高端制造与AI芯片的战略协同。
国产AI芯片与大模型协同优化取得重要进展。摩尔线程与硅基流动基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B的深度适配。通过应用FP8低精度推理技术,实现单卡预填充吞吐量超4000 tokens/秒,解码吞吐量超1000 tokens/秒,推理速度已接近国际主流高端AI加速器水平。
OpenAI与Cerebras合作,将部署750兆瓦的Cerebras晶圆级系统,打造全球最大AI推理平台。项目2026年启动,2028年全面投产,交易额超100亿美元。Cerebras芯片集成4万亿晶体管,面积远超传统GPU,此举显示大模型厂商正加速摆脱对传统GPU的依赖。
OpenAI与芯片制造商Cerebras达成多年合作,旨在通过专用芯片技术提升AI响应速度。协议总价值超100亿美元,Cerebras将在2028年前向OpenAI提供高达750兆瓦的计算能力。
Meta自研的下一代AI训练和推理加速芯片
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
$6
$24
Baidu
128
$2
$20
Moonshot
Bytedance
$0.8
32
mlx-community
VibeThinker-1.5B的4位量化版本,基于MLX框架针对苹果芯片优化,是一个拥有15亿参数的密集语言模型,专门用于数学推理和算法编码问题
McG-221
本模型是Falcon-H1-34B-Instruct指令微调版本的MLX格式转换版,专为Apple Silicon(M系列芯片)优化。它基于原始的Falcon-H1-34B-Instruct模型,通过mlx-lm工具转换为MLX框架兼容的8位量化格式,旨在在macOS设备上实现高效的本地推理。
Granite-4.0-H-1B-8bit 是 IBM Granite 系列的小型语言模型,专门针对 Apple Silicon 芯片优化,采用 8 位量化技术,参数量为 1B,具有高效推理和低资源消耗的特点。
manasmisra
该模型是基于GLM-4.5-Air使用REAP方法进行25%均匀剪枝后的专家混合模型,已转换为MLX格式的4位量化版本,适用于苹果芯片设备的高效推理。
LFM2-8B-A1B是针对苹果硅芯片优化的8位量化MLX构建版本,采用专家混合(MoE)架构,总参数约80亿,每个令牌激活约10亿参数,支持设备端快速推理。
IBM Granite-4.0-H-Tiny模型的5-bit量化版本,专为苹果硅芯片优化。采用Mamba-2与软注意力混合架构,结合混合专家模型(MoE),在保持高质量的同时实现高效推理。
IBM Granite-4.0-H-Tiny是经过苹果硅芯片优化的混合Mamba-2/Transformer模型,采用3位量化技术,专为长上下文、高效推理和企业使用而设计。该模型结合了Mamba-2架构和专家混合技术,在保持表达能力的同时显著降低内存占用。
Apriel-1.5-15B-Thinker是一个专为图像理解与推理设计的150亿参数多模态模型,采用中期训练方法而非RLHF训练。本版本为适用于苹果芯片的MLX量化版本,具有内存占用小、启动速度快的特点。
moonstruxx
这是一个基于opendatalab/MinerU2.5-2509-1.2B转换而来的MLX格式大语言模型,参数规模为12亿,专门针对Apple Silicon芯片优化,支持FP16精度推理。
Jinx GPT OSS 20B MXFP4 MLX 是一个基于 MLX 框架转换的 200 亿参数大语言模型,采用混合精度量化技术优化,适用于苹果芯片设备的高效推理。
lmstudio-community
Qwen3-Next-80B-A3B-Instruct是阿里云通义千问团队开发的大规模语言模型,经过MLX框架4位量化优化,专门针对苹果芯片设备进行了性能优化,提供高效的推理能力。
abnormalmapstudio
这是基于Qwen3-Next-80B-A3B-Thinking基础模型的苹果MLX优化4位mxfp4量化版本,专门针对苹果硅芯片优化,可在Mac设备上实现高效的本地推理,显著降低内存占用同时保持良好性能。
这是一个转换为MLX格式的文本嵌入模型,基于Google的EmbeddingGemma-300m模型转换而来,专门用于句子相似度计算和文本嵌入任务。模型采用BF16精度,适用于苹果芯片设备上的高效推理。
LogicBombaklot
这是一个基于NVIDIA Llama-3.3-Nemotron-Super-49B-v1.5模型转换的MLX格式版本,使用mlx-lm 0.26.3工具转换为8位量化格式,专门为Apple Silicon芯片优化,支持高效的本地推理。
这是DeepSeek-V3.1-Base模型的4位量化版本,使用mlx-lm工具转换而成,专门为Apple Silicon芯片优化,提供高效的大语言模型推理能力。
NexVeridian
这是一个基于OpenAI GPT-OSS-120B模型转换的3位量化版本,使用mlx-lm 0.26.3工具转换为MLX格式,适用于苹果芯片设备的高效推理。
基于GLM-4.5-Air模型使用mlx-lm 0.26.1版本转换的3位深度权重量化版本,专为Apple Silicon芯片优化,提供高效的大语言模型推理能力
该模型是基于Qwen3-235B-A22B-Thinking-2507转换的MLX格式版本,采用3-5位混合量化技术,在保持高性能的同时显著减少模型大小和计算需求,适用于苹果芯片设备的高效推理。
Qwen3-235B-A22B-Thinking-2507是由Qwen开发的大语言模型,经过LM Studio团队使用MLX进行6位量化处理,专门针对Apple Silicon芯片进行了优化,提供高效推理能力。
基于Qwen3-235B-A22B-Thinking-2507模型的4位量化版本,使用MLX框架针对苹果芯片优化,是一个高性能的大语言模型,具备思维链推理能力