在2026年CES展上,英偉達發佈下一代AI平臺“魯賓”,核心爲全新超級芯片Vera Rubin。該平臺旨在爲智能體AI和大規模推理模型提供更強算力,芯片採用創新集成設計,提升高性能計算效率。
OpenAI與博通合作開發定製AI推理芯片,計劃2026年投入使用,未來五年部署10吉瓦算力,旨在結束單純依賴GPU的時代,重塑AI經濟格局。
在2025年AWS re:Invent大會上,亞馬遜雲科技發佈了新一代AI訓練芯片Trainium3。該芯片採用3納米制程,性能較上一代提升4倍,內存容量也增加4倍,能效提高40%,顯著增強了高負載AI訓練和推理能力。
理想汽車2025年第三季度財報顯示,總營收274億元,同比下滑36.2%;淨虧損6.244億元,去年同期爲盈利28億元。管理層在電話會議中強調,公司正加速自動駕駛和AI領域轉型,自研AI推理芯片M100取得關鍵進展,預示未來戰略調整。
Meta自研的下一代AI訓練和推理加速芯片
Xai
$1.4
輸入tokens/百萬
$3.5
輸出tokens/百萬
2k
上下文長度
Openai
$7.7
$30.8
200
-
Anthropic
$7
$35
Google
$2.1
$17.5
1k
$21
$105
$0.7
$2.8
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Moonshot
Bytedance
$0.8
32
Deepseek
$12
Tencent
mlx-community
VibeThinker-1.5B的4位量化版本,基於MLX框架針對蘋果芯片優化,是一個擁有15億參數的密集語言模型,專門用於數學推理和算法編碼問題
Granite-4.0-H-1B-8bit 是 IBM Granite 系列的小型語言模型,專門針對 Apple Silicon 芯片優化,採用 8 位量化技術,參數量為 1B,具有高效推理和低資源消耗的特點。
manasmisra
該模型是基於GLM-4.5-Air使用REAP方法進行25%均勻剪枝後的專家混合模型,已轉換為MLX格式的4位量化版本,適用於蘋果芯片設備的高效推理。
LFM2-8B-A1B是針對蘋果硅芯片優化的8位量化MLX構建版本,採用專家混合(MoE)架構,總參數約80億,每個令牌激活約10億參數,支持設備端快速推理。
IBM Granite-4.0-H-Tiny模型的5-bit量化版本,專為蘋果硅芯片優化。採用Mamba-2與軟注意力混合架構,結合混合專家模型(MoE),在保持高質量的同時實現高效推理。
IBM Granite-4.0-H-Tiny是經過蘋果硅芯片優化的混合Mamba-2/Transformer模型,採用3位量化技術,專為長上下文、高效推理和企業使用而設計。該模型結合了Mamba-2架構和專家混合技術,在保持表達能力的同時顯著降低內存佔用。
Apriel-1.5-15B-Thinker是一個專為圖像理解與推理設計的150億參數多模態模型,採用中期訓練方法而非RLHF訓練。本版本為適用於蘋果芯片的MLX量化版本,具有內存佔用小、啟動速度快的特點。
moonstruxx
這是一個基於opendatalab/MinerU2.5-2509-1.2B轉換而來的MLX格式大語言模型,參數規模為12億,專門針對Apple Silicon芯片優化,支持FP16精度推理。
Jinx GPT OSS 20B MXFP4 MLX 是一個基於 MLX 框架轉換的 200 億參數大語言模型,採用混合精度量化技術優化,適用於蘋果芯片設備的高效推理。
lmstudio-community
Qwen3-Next-80B-A3B-Instruct是阿里雲通義千問團隊開發的大規模語言模型,經過MLX框架4位量化優化,專門針對蘋果芯片設備進行了性能優化,提供高效的推理能力。
abnormalmapstudio
這是基於Qwen3-Next-80B-A3B-Thinking基礎模型的蘋果MLX優化4位mxfp4量化版本,專門針對蘋果硅芯片優化,可在Mac設備上實現高效的本地推理,顯著降低內存佔用同時保持良好性能。
這是一個轉換為MLX格式的文本嵌入模型,基於Google的EmbeddingGemma-300m模型轉換而來,專門用於句子相似度計算和文本嵌入任務。模型採用BF16精度,適用於蘋果芯片設備上的高效推理。
LogicBombaklot
這是一個基於NVIDIA Llama-3.3-Nemotron-Super-49B-v1.5模型轉換的MLX格式版本,使用mlx-lm 0.26.3工具轉換為8位量化格式,專門為Apple Silicon芯片優化,支持高效的本地推理。
這是DeepSeek-V3.1-Base模型的4位量化版本,使用mlx-lm工具轉換而成,專門為Apple Silicon芯片優化,提供高效的大語言模型推理能力。
NexVeridian
這是一個基於OpenAI GPT-OSS-120B模型轉換的3位量化版本,使用mlx-lm 0.26.3工具轉換為MLX格式,適用於蘋果芯片設備的高效推理。
基於GLM-4.5-Air模型使用mlx-lm 0.26.1版本轉換的3位深度權重量化版本,專為Apple Silicon芯片優化,提供高效的大語言模型推理能力
該模型是基於Qwen3-235B-A22B-Thinking-2507轉換的MLX格式版本,採用3-5位混合量化技術,在保持高性能的同時顯著減少模型大小和計算需求,適用於蘋果芯片設備的高效推理。
Qwen3-235B-A22B-Thinking-2507是由Qwen開發的大語言模型,經過LM Studio團隊使用MLX進行6位量化處理,專門針對Apple Silicon芯片進行了優化,提供高效推理能力。
基於Qwen3-235B-A22B-Thinking-2507模型的4位量化版本,使用MLX框架針對蘋果芯片優化,是一個高性能的大語言模型,具備思維鏈推理能力
百度ERNIE-4.5-21B-A3B是基於ERNIE-4.5-21B-A3B-PT基礎模型的社區版本,採用MLX進行6位量化,專門為蘋果芯片優化。該模型在LM Studio社區模型亮點計劃中展示,具有高效的推理性能和良好的兼容性。