月之暗面Kimi官方宣布,Kimi K2系列模型API将于5月25日停止维护,用户需迁移至最新模型kimi-k2.6,以获得持续支持及更强多模态能力。K2系列包括多个版本,自去年7月发布以来以万亿参数著称,现已结束生命周期。
AMD发布vLLM-ATOM插件,旨在不改变现有工作流的前提下,充分挖掘硬件潜力,为DeepSeek-R1、Kimi-K2等主流大语言模型推理显著提速。vLLM本身是优化高并发场景吞吐量与显存利用率的开源框架,专注请求调度和缓存管理,ATOM插件则进一步强化了这一能力。
AMD发布vLLM-ATOM插件,专为大语言模型部署优化,在不改变现有工作流下,显著提升DeepSeek-R1、Kimi-K2等国产大模型在AMD硬件上的推理性能。该插件针对Instinct系列GPU定制,利用vLLM框架的高显存利用率优势,让开发者以低学习成本实现技术迁移,获得性能平滑升级。
火山引擎于5月11日发布业界首个“Agent套餐包”——Agent Plan,推动AI应用从编程辅助向通用智能体跨越。该计划整合字节跳动自研全模态模型(如Doubao-Seed、Doubao-Seedance)及GLM-5.1、Kimi-K2.6等第三方模型,并创新采用“Model与Harness”双驱动技术架构。
Moonshot
$4
输入tokens/百万
$16
输出tokens/百万
256
上下文长度
$8
$32
262
$1
131
inferencerlabs
Kimi - K2 - Thinking 3.825bit MLX 是一款用于文本生成的量化模型,通过不同的量化方式在测试中取得不同的困惑度表现,其中q3.825bit量化能达到1.256的困惑度。
DevQuasar
本项目基于 moonshotai/Kimi-K2-Thinking 基础模型,通过自定义反量化脚本将原始的INT4模型转换为更高质量的文本生成模型,致力于让知识为每个人所用。
基于MLX库实现的文本生成模型,支持多种量化方式推理,具备分布式计算能力,可在苹果硬件环境下高效运行。
mlx-community
Kimi-K2-Thinking 是由 mlx-community 从 moonshotai 原版模型转换而来的 MLX 格式大语言模型,采用 mlx-lm 0.28.4 版本进行转换,保留了原模型的思维链推理能力。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
richardyoung
这是一个高性能的4位量化版本的Kimi K2 Instruct模型,专为使用MLX框架在Apple Silicon(M1/M2/M3/M4)Mac上运行而优化。该模型拥有6710亿参数,支持128K上下文窗口,在质量和效率之间实现了出色的平衡,是大多数实际部署的理想选择。
cs2764
本模型是基于moonshotai的Kimi-K2-Instruct-0905模型使用mlx-lm 0.28.0版本转换的MLX格式版本,采用3位量化技术,分组大小为32,平均每个权重仅占用4.002位,优化了模型在苹果设备上的运行效率。
anikifoss
这是对Moonshot AI的Kimi-K2-Instruct-0905模型的高质量量化版本,采用HQ4_K量化方法,专门优化了推理性能,支持75000上下文长度,适用于文本生成任务。
这是 moonshotai/Kimi-K2-Instruct-0905 模型的 MLX 格式转换版本,采用创新的 DQ3_K_M 动态 3 位量化技术,专门为 Apple Silicon Mac 设备优化,在保持接近 4 位量化性能的同时显著减少内存占用。
这是 moonshotai/Kimi-K2-Instruct-0905 模型的量化版本,致力于让知识为每个人所用。该项目提供了优化后的模型权重,便于在各种硬件上部署和使用。
基于moonshotai/Kimi-K2-Instruct-0905基础模型,使用改进版MLX 0.26进行动态量化的大语言模型。通过创新的动态量化策略,在保持出色性能的同时显著降低硬件需求,可在单台M3 Ultra设备上高效运行。
ubergarm
这是moonshotai/Kimi-K2-Instruct-0905模型的GGUF格式量化版本,使用ik_llama.cpp分支进行最优量化。该模型采用混合专家架构,支持中文对话和文本生成任务,经过多种量化方案优化,在保持高质量的同时显著减少内存占用。
本模型是 Kimi-K2-Instruct 模型的 MLX 格式 3 位量化版本,专为在 Apple Silicon 设备上高效运行而优化。它基于 moonshotai 的 Kimi-K2-Instruct 模型转换而来,保持了原模型的指令跟随和对话能力,同时通过量化显著减少了内存占用和提升了推理速度。
Kimi-K2 Dynamic MLX是基于moonshotai/Kimi-K2-Instruct模型构建的文本生成项目,采用优化后的MLX库实现高效量化性能。该模型在单台M3 Ultra 512GB RAM机器上运行,支持多种量化方式,在测试中展现出优秀的困惑度指标。
unsloth
Kimi K2是一款先进的混合专家(MoE)语言模型,具备320亿激活参数和1万亿总参数,针对智能代理能力进行了优化。
Kimi-K2-Instruct-4bit 是一个基于 moonshotai/Kimi-K2-Instruct 转换而来的 4bit 量化模型,适用于 MLX 框架。
Kimi K2是一款先进的混合专家(MoE)语言模型,拥有320亿激活参数和1万亿总参数,针对智能体能力进行了优化。
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对智能体能力进行了优化。