英伟达将发布专为推理计算设计的新处理器,整合Groq技术,应对AI智能体爆发带来的芯片需求从模型训练转向高效任务响应的市场变化。
百度2025年第四季度财报显示,其AI业务收入占比达43%,成为核心业务。这打破了AI高成本的传统看法,标志着百度的“技术信仰”已从实验室走向商业价值。百度在芯片、云服务、模型和智能体等AI领域进行了全面布局。
春节假期国产AI大模型密集发布,智谱科技GLM-5模型备受关注。该模型参数量达7440亿,较前代翻倍,技术实现突破,并全面支持七大国产芯片平台,展现中国AI实力。
DEEPX与神州数码合作,利用高性能低功耗芯片技术,加速物理AI在中国市场应用,填补高性能与超低功耗之间的市场空白。
Openai
$7.7
Input tokens/M
$30.8
Output tokens/M
200
Context Length
Alibaba
$8
$240
52
Tencent
-
$0.4
128
Anthropic
$105
$525
Iflytek
$2
Google
$140
$280
32
$3
$9
16
Baidu
$0.7
$1.4
131
Stepfun
Deepseek
8
mlx-community
Granite-4.0-H-1B-8bit 是 IBM Granite 系列的小型语言模型,专门针对 Apple Silicon 芯片优化,采用 8 位量化技术,参数量为 1B,具有高效推理和低资源消耗的特点。
这是一个基于GLM-4.6模型转换的MLX格式版本,采用8位量化技术,分组大小为32,专为苹果芯片优化,提供高效的文本生成功能。
IBM Granite-4.0-H-Tiny是经过苹果硅芯片优化的混合Mamba-2/Transformer模型,采用3位量化技术,专为长上下文、高效推理和企业使用而设计。该模型结合了Mamba-2架构和专家混合技术,在保持表达能力的同时显著降低内存占用。
Jinx GPT OSS 20B MXFP4 MLX 是一个基于 MLX 框架转换的 200 亿参数大语言模型,采用混合精度量化技术优化,适用于苹果芯片设备的高效推理。
lmstudio-community
Seed-OSS-36B-Instruct是由ByteDance-Seed开发的大型语言模型,参数量达360亿,采用Apache-2.0开源许可证。该模型基于transformers库构建,支持vllm和mlx技术优化,特别针对苹果Silicon芯片进行了8位量化处理,提供高效的文本生成能力。
Gemma 3 270M Instruct是Google推出的轻量级文本生成模型,基于MLX技术针对Apple Silicon芯片优化,提供高效的对话和指令跟随能力。
Gemma 3 270M Instruct是Google推出的基于Transformer架构的文本生成模型,专门针对苹果芯片进行了优化,采用8位量化技术,在文本生成任务中表现出色,适用于各种对话和指令跟随场景。
这是一个基于GPT架构的大型语言模型,拥有1200亿参数并使用4位量化技术压缩,通过MLX框架优化在Apple芯片上运行,支持高效的文本生成任务。
该模型是基于Qwen3-235B-A22B-Thinking-2507转换的MLX格式版本,采用3-5位混合量化技术,在保持高性能的同时显著减少模型大小和计算需求,适用于苹果芯片设备的高效推理。
基于Qwen3-Coder-480B-A35B-Instruct模型的文本生成工具库,专门针对代码生成和文本内容生成任务,采用MLX 8位量化技术优化,适用于苹果芯片设备。
这是 Google Gemma-3-1B-IT 模型的量化版本,使用 QAT(量化感知训练)4位量化技术,并转换为 MLX 格式,便于在 Apple 芯片设备上高效运行。