初创公司Resemble AI发布开源语音模型“Chatterbox Turbo”,挑战行业巨头。该模型仅需5秒音频即可克隆语音,延迟低至150毫秒,适用于实时AI代理、客服、游戏角色等场景,性能显著提升。
英伟达发布大模型微调指南,降低技术门槛,让普通开发者也能在消费级设备上高效完成模型定制。该指南详解如何在NVIDIA全系硬件上利用开源框架Unsloth实现专业级微调。Unsloth专为NVIDIA GPU打造,优化训练全流程,提升性能。
字节跳动Seed团队推出形式化数学推理模型Seed Prover1.5,通过大规模Agentic强化学习显著提升推理能力与效率。该模型在2025年国际数学奥林匹克竞赛中,三天内成功解决六题中的四道,并完成一道题的部分解答,展现强大性能。
MiniMax与华中科技大学联合开源VTP技术,仅优化视觉分词器,使图像生成性能提升65.8%,无需修改主模型架构,突破行业依赖大模型的传统思路。
高效的视觉编码技术,提升视觉语言模型性能。
AI 驱动的 CUDA 代码优化平台,快速提升 GPU 性能,无需手动优化复杂代码。
Atom of Thoughts (AoT) 是一种用于提升大语言模型推理性能的框架。
通过AI驱动的分析提升网站性能和在线收入,完全免费且无需注册。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
-
Anthropic
$7
$35
200
Google
$2.1
$17.5
$21
$105
Alibaba
$4
$16
$1
$10
256
Baidu
128
$8
$240
52
$2
Tencent
32
$1.6
$0.4
$1.75
$14
400
$15
Huawei
bartowski
这是allenai的Olmo-3-32B-Think模型的GGUF量化版本,通过llama.cpp工具进行多种量化处理,旨在提升模型在特定环境下的性能和效率。提供了从Q2到Q8的多种量化选项,满足不同硬件配置和性能需求。
allenai
Olmo 3是由Allen Institute for AI开发的新一代语言模型家族,包含7B和32B的指令和思维变体。该模型在长链式思维方面表现出色,能显著提升数学和编码等推理任务的性能。所有代码、检查点和训练细节都将公开,推动语言模型科学发展。
Olmo 3是由Allen Institute for AI开发的一系列语言模型,包含7B和32B两种规模,具有指令式和思考式两种变体。该模型在长链式思维方面表现出色,能有效提升数学和编码等推理任务的性能。采用多阶段训练方式,包括有监督微调、直接偏好优化和可验证奖励的强化学习。
noctrex
本项目是对Qwen3-Coder-30B-A3B-Instruct模型进行MXFP4_MOE量化的成果,将上下文大小从256k扩展到1M,为代码生成和编程任务提供了更优化的模型版本,具有提升性能和节省资源的价值。
moonshotai
Kimi Linear是一种高效混合线性注意力架构,在短上下文、长上下文和强化学习场景中均优于传统全注意力方法。它通过Kimi Delta Attention (KDA)机制优化注意力计算,显著提升性能和硬件效率,特别擅长处理长达100万令牌的长上下文任务。
cyankiwi
GLM-4.6 AWQ - INT4是GLM-4.6模型的4位量化版本,采用AWQ量化方法,在保持模型性能的同时显著减少了存储和计算资源需求。该模型支持200K上下文长度,在编码、推理和智能体任务方面相比GLM-4.5有显著提升。
QuantTrio
MiniMax-M2-AWQ是基于MiniMaxAI/MiniMax-M2模型的量化版本,通过vLLM框架实现高效的文本生成。该模型采用AWQ量化技术,在保持模型性能的同时显著减少内存占用和提升推理速度,支持32K上下文长度和工具调用功能。
本项目是对Qwen3-30B-A3B-YOYO-V4模型进行的MXFP4_MOE量化版本。该量化技术能够显著提升模型在资源受限环境下的运行效率,同时保持较好的模型性能,适用于需要高效推理的各种场景。
这是SmallThinker - 21BA3B - Instruct模型的MXFP4_MOE量化版本,专门针对特定场景进行了优化,旨在提升模型的性能和推理效率。该量化版本保持了原模型的核心能力,同时在资源消耗和推理速度方面有所改进。
lmstudio-community
Qwen3-VL-8B-Instruct是由Qwen团队开发的多模态视觉语言模型,支持图像文本到文本转换。该版本经过MLX 8位量化处理,专门针对苹果硅芯片进行优化,在保持性能的同时提升运行效率。
这是Kwaipilot的KAT-Dev模型的量化版本,使用llama.cpp的imatrix量化技术处理,旨在提升模型在不同硬件环境下的运行效率和性能。该版本提供多种量化级别,从高质量到极致压缩,适应不同的内存和计算资源需求。
这是微软UserLM-8b模型的量化版本,使用llama.cpp的imatrix量化技术,可在保持模型性能的同时显著减少内存占用和提升推理速度。支持多种量化级别,从高质量到极致压缩,适用于不同硬件环境。
Mungert
通义深度研究30B是一款具有300亿参数的大语言模型,专为长周期、深度信息搜索任务设计。该模型在多个智能搜索基准测试中表现出色,采用创新的量化方法提升性能,支持智能预训练、监督微调与强化学习。
mamei16
这是对mirth/chonky_distilbert_base_uncased_1模型的微调版本,通过在更多数据上进行训练来提升模型性能,主要用于文本分块和RAG相关任务。
rand0nmr
Wan2.2是基础视频模型的重大升级版本,引入了混合专家(MoE)架构、融入精心策划的美学数据、在更大数据上训练以提升复杂运动生成能力。该模型支持生成480P和720P分辨率的5秒视频,在视频生成质量和性能上有显著提升。
这是IBM Granite 4.0 Micro模型的量化版本,使用llama.cpp的imatrix技术进行优化处理,旨在提升模型在特定环境下的运行效率和性能。该版本提供了多种量化级别选择,适用于不同的硬件配置和使用场景。
GLM-4.6-AWQ是基于zai-org/GLM-4.6基础模型的量化版本,具备高效的文本生成能力。相比GLM-4.5,该模型在上下文窗口、编码性能、推理能力和智能体功能等方面都有显著提升。
unsloth
GLM-4.6是智谱AI开发的新一代大语言模型,相比GLM-4.5在上下文处理、编码能力和推理性能方面有显著提升。该模型支持200K上下文长度,在多个公开基准测试中表现出色,特别在代码生成、推理和代理任务方面具有竞争优势。
zai-org
GLM-4.6是智谱AI推出的新一代文本生成模型,相比GLM-4.5在上下文处理、编码性能、推理能力等方面实现显著提升,支持200K上下文长度,具备更强的智能体能力和精致的写作能力。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通义千问团队开发的高效稀疏混合专家模型,总参数量80B,激活参数量仅3B。该模型采用创新的混合注意力机制和极低激活率的MoE架构,在保持强大性能的同时大幅提升推理效率,原生支持262K上下文长度并可扩展至1M令牌。
Rsdoctor 是一款专为 Rspack 生态系统打造的构建分析工具,全面兼容 webpack,提供可视化构建分析、多维度性能诊断及智能优化建议,帮助开发者提升构建效率与工程质量。
交互式反馈MCP项目,通过集成模型上下文协议(MCP)在关键点提供智能交互反馈,优化AI助手的用户交互流程,减少资源消耗并提升性能。
一个基于MCP协议的内存缓存服务器,通过高效缓存语言模型交互数据来减少token消耗,支持自动管理和配置优化。
专为WSL优化的文件系统MCP服务器,通过原生Linux命令提升文件操作性能,支持跨Windows和Linux的文件访问与管理。
一个提供NPM包文档和元数据查询的MCP服务,支持本地缓存提升性能。
一个AI驱动的代码分析与优化工具,集成MCP服务,旨在提升开发效率和代码质量,提供安全扫描、性能分析、自动化测试等功能。
该项目展示了一个基于共享Web Worker的MCP客户端实现,包含完整的演示组件和测试工具,通过后台线程处理MCP协议提升性能并保持UI响应。
一个用于通过REST API与Croit Ceph集群交互的MCP服务器,支持自动令牌优化、内置过滤和混合模式工具管理,大幅减少工具数量并提升LLM性能。
HubSpot MCP服务器是一个连接AI助手与HubSpot CRM数据的中间件,提供联系人、公司和互动数据访问,具备向量存储和缓存机制以提升性能。
Cloudinary-MCP-Server优化并管理Cloudinary的图像托管服务,提供高效的媒体存储、处理和传输,以提升应用性能和用户体验。
一个高性能的癌症基因组学MCP服务器,通过异步Python架构实现与cBioPortal数据的无缝交互,采用企业级模块化设计,性能提升4.5倍。
交互式反馈MCP服务器项目,通过用户反馈优化AI助手任务流程,减少资源消耗并提升性能。