在2026年CES展上,英伟达发布下一代AI平台“鲁宾”,核心为全新超级芯片Vera Rubin。该平台旨在为智能体AI和大规模推理模型提供更强算力,芯片采用创新集成设计,提升高性能计算效率。
OpenAI与博通合作开发定制AI推理芯片,计划2026年投入使用,未来五年部署10吉瓦算力,旨在结束单纯依赖GPU的时代,重塑AI经济格局。
在2025年AWS re:Invent大会上,亚马逊云科技发布了新一代AI训练芯片Trainium3。该芯片采用3纳米制程,性能较上一代提升4倍,内存容量也增加4倍,能效提高40%,显著增强了高负载AI训练和推理能力。
理想汽车2025年第三季度财报显示,总营收274亿元,同比下滑36.2%;净亏损6.244亿元,去年同期为盈利28亿元。管理层在电话会议中强调,公司正加速自动驾驶和AI领域转型,自研AI推理芯片M100取得关键进展,预示未来战略调整。
Meta自研的下一代AI训练和推理加速芯片
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
$21
$105
$0.7
Alibaba
$4
$16
$1
$10
256
Baidu
128
$6
$24
$2
$20
Moonshot
Bytedance
$0.8
32
mlx-community
VibeThinker-1.5B的4位量化版本,基于MLX框架针对苹果芯片优化,是一个拥有15亿参数的密集语言模型,专门用于数学推理和算法编码问题
McG-221
本模型是Falcon-H1-34B-Instruct指令微调版本的MLX格式转换版,专为Apple Silicon(M系列芯片)优化。它基于原始的Falcon-H1-34B-Instruct模型,通过mlx-lm工具转换为MLX框架兼容的8位量化格式,旨在在macOS设备上实现高效的本地推理。
Granite-4.0-H-1B-8bit 是 IBM Granite 系列的小型语言模型,专门针对 Apple Silicon 芯片优化,采用 8 位量化技术,参数量为 1B,具有高效推理和低资源消耗的特点。
manasmisra
该模型是基于GLM-4.5-Air使用REAP方法进行25%均匀剪枝后的专家混合模型,已转换为MLX格式的4位量化版本,适用于苹果芯片设备的高效推理。
LFM2-8B-A1B是针对苹果硅芯片优化的8位量化MLX构建版本,采用专家混合(MoE)架构,总参数约80亿,每个令牌激活约10亿参数,支持设备端快速推理。
IBM Granite-4.0-H-Tiny模型的5-bit量化版本,专为苹果硅芯片优化。采用Mamba-2与软注意力混合架构,结合混合专家模型(MoE),在保持高质量的同时实现高效推理。
IBM Granite-4.0-H-Tiny是经过苹果硅芯片优化的混合Mamba-2/Transformer模型,采用3位量化技术,专为长上下文、高效推理和企业使用而设计。该模型结合了Mamba-2架构和专家混合技术,在保持表达能力的同时显著降低内存占用。
Apriel-1.5-15B-Thinker是一个专为图像理解与推理设计的150亿参数多模态模型,采用中期训练方法而非RLHF训练。本版本为适用于苹果芯片的MLX量化版本,具有内存占用小、启动速度快的特点。
moonstruxx
这是一个基于opendatalab/MinerU2.5-2509-1.2B转换而来的MLX格式大语言模型,参数规模为12亿,专门针对Apple Silicon芯片优化,支持FP16精度推理。
Jinx GPT OSS 20B MXFP4 MLX 是一个基于 MLX 框架转换的 200 亿参数大语言模型,采用混合精度量化技术优化,适用于苹果芯片设备的高效推理。
lmstudio-community
Qwen3-Next-80B-A3B-Instruct是阿里云通义千问团队开发的大规模语言模型,经过MLX框架4位量化优化,专门针对苹果芯片设备进行了性能优化,提供高效的推理能力。
abnormalmapstudio
这是基于Qwen3-Next-80B-A3B-Thinking基础模型的苹果MLX优化4位mxfp4量化版本,专门针对苹果硅芯片优化,可在Mac设备上实现高效的本地推理,显著降低内存占用同时保持良好性能。
这是一个转换为MLX格式的文本嵌入模型,基于Google的EmbeddingGemma-300m模型转换而来,专门用于句子相似度计算和文本嵌入任务。模型采用BF16精度,适用于苹果芯片设备上的高效推理。
LogicBombaklot
这是一个基于NVIDIA Llama-3.3-Nemotron-Super-49B-v1.5模型转换的MLX格式版本,使用mlx-lm 0.26.3工具转换为8位量化格式,专门为Apple Silicon芯片优化,支持高效的本地推理。
这是DeepSeek-V3.1-Base模型的4位量化版本,使用mlx-lm工具转换而成,专门为Apple Silicon芯片优化,提供高效的大语言模型推理能力。
NexVeridian
这是一个基于OpenAI GPT-OSS-120B模型转换的3位量化版本,使用mlx-lm 0.26.3工具转换为MLX格式,适用于苹果芯片设备的高效推理。
基于GLM-4.5-Air模型使用mlx-lm 0.26.1版本转换的3位深度权重量化版本,专为Apple Silicon芯片优化,提供高效的大语言模型推理能力
该模型是基于Qwen3-235B-A22B-Thinking-2507转换的MLX格式版本,采用3-5位混合量化技术,在保持高性能的同时显著减少模型大小和计算需求,适用于苹果芯片设备的高效推理。
Qwen3-235B-A22B-Thinking-2507是由Qwen开发的大语言模型,经过LM Studio团队使用MLX进行6位量化处理,专门针对Apple Silicon芯片进行了优化,提供高效推理能力。
基于Qwen3-235B-A22B-Thinking-2507模型的4位量化版本,使用MLX框架针对苹果芯片优化,是一个高性能的大语言模型,具备思维链推理能力