月之暗面Kimi官方宣佈,Kimi K2系列模型API將於5月25日停止維護,用戶需遷移至最新模型kimi-k2.6,以獲得持續支持及更強多模態能力。K2系列包括多個版本,自去年7月發佈以來以萬億參數著稱,現已結束生命週期。
AMD發佈vLLM-ATOM插件,旨在不改變現有工作流的前提下,充分挖掘硬件潛力,爲DeepSeek-R1、Kimi-K2等主流大語言模型推理顯著提速。vLLM本身是優化高併發場景吞吐量與顯存利用率的開源框架,專注請求調度和緩存管理,ATOM插件則進一步強化了這一能力。
AMD發佈vLLM-ATOM插件,專爲大語言模型部署優化,在不改變現有工作流下,顯著提升DeepSeek-R1、Kimi-K2等國產大模型在AMD硬件上的推理性能。該插件針對Instinct系列GPU定製,利用vLLM框架的高顯存利用率優勢,讓開發者以低學習成本實現技術遷移,獲得性能平滑升級。
火山引擎於5月11日發佈業界首個“Agent套餐包”——Agent Plan,推動AI應用從編程輔助向通用智能體跨越。該計劃整合字節跳動自研全模態模型(如Doubao-Seed、Doubao-Seedance)及GLM-5.1、Kimi-K2.6等第三方模型,並創新採用“Model與Harness”雙驅動技術架構。
Moonshot
$4
輸入tokens/百萬
$16
輸出tokens/百萬
256
上下文長度
$1
262
$8
$32
131
inferencerlabs
Kimi - K2 - Thinking 3.825bit MLX 是一款用於文本生成的量化模型,通過不同的量化方式在測試中取得不同的困惑度表現,其中q3.825bit量化能達到1.256的困惑度。
DevQuasar
本項目基於 moonshotai/Kimi-K2-Thinking 基礎模型,通過自定義反量化腳本將原始的INT4模型轉換為更高質量的文本生成模型,致力於讓知識為每個人所用。
基於MLX庫實現的文本生成模型,支持多種量化方式推理,具備分佈式計算能力,可在蘋果硬件環境下高效運行。
mlx-community
Kimi-K2-Thinking 是由 mlx-community 從 moonshotai 原版模型轉換而來的 MLX 格式大語言模型,採用 mlx-lm 0.28.4 版本進行轉換,保留了原模型的思維鏈推理能力。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)開發的最新一代開源思維模型,具有強大的深度推理能力和工具調用功能。該模型採用混合專家架構,支持原生INT4量化,擁有256k上下文窗口,在多個基準測試中表現出色。
richardyoung
這是一個高性能的4位量化版本的Kimi K2 Instruct模型,專為使用MLX框架在Apple Silicon(M1/M2/M3/M4)Mac上運行而優化。該模型擁有6710億參數,支持128K上下文窗口,在質量和效率之間實現了出色的平衡,是大多數實際部署的理想選擇。
cs2764
本模型是基於moonshotai的Kimi-K2-Instruct-0905模型使用mlx-lm 0.28.0版本轉換的MLX格式版本,採用3位量化技術,分組大小為32,平均每個權重僅佔用4.002位,優化了模型在蘋果設備上的運行效率。
anikifoss
這是對Moonshot AI的Kimi-K2-Instruct-0905模型的高質量量化版本,採用HQ4_K量化方法,專門優化了推理性能,支持75000上下文長度,適用於文本生成任務。
這是 moonshotai/Kimi-K2-Instruct-0905 模型的 MLX 格式轉換版本,採用創新的 DQ3_K_M 動態 3 位量化技術,專門為 Apple Silicon Mac 設備優化,在保持接近 4 位量化性能的同時顯著減少內存佔用。
這是 moonshotai/Kimi-K2-Instruct-0905 模型的量化版本,致力於讓知識為每個人所用。該項目提供了優化後的模型權重,便於在各種硬件上部署和使用。
基於moonshotai/Kimi-K2-Instruct-0905基礎模型,使用改進版MLX 0.26進行動態量化的大語言模型。通過創新的動態量化策略,在保持出色性能的同時顯著降低硬件需求,可在單臺M3 Ultra設備上高效運行。
ubergarm
這是moonshotai/Kimi-K2-Instruct-0905模型的GGUF格式量化版本,使用ik_llama.cpp分支進行最優量化。該模型採用混合專家架構,支持中文對話和文本生成任務,經過多種量化方案優化,在保持高質量的同時顯著減少內存佔用。
Kimi-K2 Dynamic MLX是基於moonshotai/Kimi-K2-Instruct模型構建的文本生成項目,採用優化後的MLX庫實現高效量化性能。該模型在單臺M3 Ultra 512GB RAM機器上運行,支持多種量化方式,在測試中展現出優秀的困惑度指標。
unsloth
Kimi K2是一款先進的混合專家(MoE)語言模型,具備320億激活參數和1萬億總參數,針對智能代理能力進行了優化。
Kimi-K2-Instruct-4bit 是一個基於 moonshotai/Kimi-K2-Instruct 轉換而來的 4bit 量化模型,適用於 MLX 框架。
Kimi K2是一款先進的混合專家(MoE)語言模型,擁有320億激活參數和1萬億總參數,針對智能體能力進行了優化。
Kimi K2 是一款先進的混合專家(MoE)語言模型,擁有 320 億激活參數和 1 萬億總參數,針對智能體能力進行了優化。