大语言模型推理效率迎来突破。清华大学与Moonshot AI联合提出“预填充即服务”新架构,通过将推理过程拆分为预填充和解码两个阶段,并优化算力资源分配,有效解决硬件限制问题,显著提升模型服务性能。
Moonshot AI与清华大学提出预填充即服务(PrfaaS)新架构,旨在解决大型语言模型推理中计算资源瓶颈。该架构将高计算密集的预填充阶段(生成键值缓存)与解码阶段分离,以优化资源利用,突破传统服务限制。
月之暗面(Moonshot AI)在Kimi K2.5模型发布仅一个月后,年度经常性收入(ARR)突破1亿美元,创下国产大模型企业变现新纪录。这标志着大模型商业化进入爆发期,算力资源供不应求,企业需预付千万美元锁定供应。
中国大模型行业竞争焦点正从技术转向资本。月之暗面(Moonshot AI)态度突变,从“不急于上市”转为接触投行评估赴港IPO,并启动新一轮10亿美元融资,投前估值达170亿-180亿美元。其K2.5模型商业化进程成为关键驱动力,推动行业进入资本定价新阶段。
Kimi 视觉模型可理解图片内容,包括文字、颜色和物体形状等。
全球首个20万汉字智能助手
月之暗面AI助手,您的私人AI伙伴
Moonshot
$4
输入tokens/百万
$16
输出tokens/百万
256
上下文长度
Minimax
-
$5
$20
32
$10
$30
131
$2
8
$200
$8
$32
262
$1
DevQuasar
本项目基于 moonshotai/Kimi-K2-Thinking 基础模型,通过自定义反量化脚本将原始的INT4模型转换为更高质量的文本生成模型,致力于让知识为每个人所用。
mlx-community
Kimi-K2-Thinking 是由 mlx-community 从 moonshotai 原版模型转换而来的 MLX 格式大语言模型,采用 mlx-lm 0.28.4 版本进行转换,保留了原模型的思维链推理能力。
这是一个基于Moonshot AI技术的量化版本模型,专注于视觉语言理解与生成任务,致力于降低知识获取门槛,让知识为每个人所用。
moonshotai
Kimi K2 Thinking 是月之暗面(Moonshot AI)开发的最新一代开源思维模型,具有强大的深度推理能力和工具调用功能。该模型采用混合专家架构,支持原生INT4量化,拥有256k上下文窗口,在多个基准测试中表现出色。
本模型是基于moonshotai的Kimi-Linear-48B-A3B-Instruct大语言模型,使用mlx-lm工具转换为适用于Apple Silicon芯片(MLX框架)的8位量化版本。它是一个48B参数的指令微调模型,专为遵循人类指令和对话交互而设计。
这是基于moonshotai/Kimi-Linear-48B-A3B-Instruct模型转换的4位量化版本,专为Apple MLX框架优化,提供高效的文本生成能力
Kimi Linear是一种混合线性注意力架构,在各种场景下包括短、长上下文以及强化学习扩展机制中,均优于传统的全注意力方法。它能有效解决传统注意力机制在长上下文任务中效率低下的问题,为自然语言处理等领域带来更高效的解决方案。
Kimi Linear是一种高效混合线性注意力架构,在短上下文、长上下文和强化学习场景中均优于传统全注意力方法。它通过Kimi Delta Attention (KDA)机制优化注意力计算,显著提升性能和硬件效率,特别擅长处理长达100万令牌的长上下文任务。
cs2764
本模型是基于moonshotai的Kimi-K2-Instruct-0905模型使用mlx-lm 0.28.0版本转换的MLX格式版本,采用3位量化技术,分组大小为32,平均每个权重仅占用4.002位,优化了模型在苹果设备上的运行效率。
anikifoss
这是对Moonshot AI的Kimi-K2-Instruct-0905模型的高质量量化版本,采用HQ4_K量化方法,专门优化了推理性能,支持75000上下文长度,适用于文本生成任务。
这是 moonshotai/Kimi-K2-Instruct-0905 模型的 MLX 格式转换版本,采用创新的 DQ3_K_M 动态 3 位量化技术,专门为 Apple Silicon Mac 设备优化,在保持接近 4 位量化性能的同时显著减少内存占用。
这是 moonshotai/Kimi-K2-Instruct-0905 模型的量化版本,致力于让知识为每个人所用。该项目提供了优化后的模型权重,便于在各种硬件上部署和使用。
inferencerlabs
基于moonshotai/Kimi-K2-Instruct-0905基础模型,使用改进版MLX 0.26进行动态量化的大语言模型。通过创新的动态量化策略,在保持出色性能的同时显著降低硬件需求,可在单台M3 Ultra设备上高效运行。
ubergarm
这是moonshotai/Kimi-K2-Instruct-0905模型的GGUF格式量化版本,使用ik_llama.cpp分支进行最优量化。该模型采用混合专家架构,支持中文对话和文本生成任务,经过多种量化方案优化,在保持高质量的同时显著减少内存占用。
本模型是 Kimi-K2-Instruct 模型的 MLX 格式 3 位量化版本,专为在 Apple Silicon 设备上高效运行而优化。它基于 moonshotai 的 Kimi-K2-Instruct 模型转换而来,保持了原模型的指令跟随和对话能力,同时通过量化显著减少了内存占用和提升了推理速度。
Kimi-K2 Dynamic MLX是基于moonshotai/Kimi-K2-Instruct模型构建的文本生成项目,采用优化后的MLX库实现高效量化性能。该模型在单台M3 Ultra 512GB RAM机器上运行,支持多种量化方式,在测试中展现出优秀的困惑度指标。
Kimi - K2 - Instruct 是一个基于 moonshotai/Kimi - K2 - Instruct 模型的量化版本,旨在让知识更广泛地惠及大众。
Kimi-Dev-72B-8bit 是基于 moonshotai/Kimi-Dev-72B 转换的 8 位量化版本,适用于 MLX 框架的文本生成模型。
Kimi-Dev-72B-4bit-DWQ 是一个基于 moonshotai/Kimi-Dev-72B 转换而来的 4 位量化大语言模型,适用于 MLX 框架。
Kimi K2 是一款先进的混合专家(MoE)语言模型,拥有 320 亿激活参数和 1 万亿总参数,针对代理能力进行了优化。