红帽收购AI公司Chatterbox Labs,以强化企业级AI布局。该公司专注AI模型测试与生成式AI安全,其AIMI平台可量化AI风险并管理模型行为。这是红帽继去年收购Neural Magic后在AI领域的又一重要投资。
埃隆・马斯克在巴伦投资大会上首次量化预测AGI时间表:明年Q1发布的Grok 5有约10%概率实现通用人工智能。技术亮点包括:6万亿参数MoE架构(稀疏度70%)、多模态统一编码(文本/图像/音频/实时视频流)、帧级延迟<120ms。训练数据来自X平台每日5亿帖文与2亿小时视频流,支持实时回灌训练。
以色列初创Milestone获1000万美元种子融资,由Heavybit与Hanaco领投。该公司打造"GenAI数据湖",整合代码库、项目管理等四类数据,帮助客户量化生成式AI对研发效率的实际影响,包括追踪使用频率、缺陷率等关键指标。
摩根士丹利报告显示,标普500指数成分公司中15%的企业通过AI技术获得可量化经济效益,较去年11%显著提升。近四分之一公司被归类为“AI采用者”,表明企业正加速利用AI提升业绩。
SmolVLM2 是一个专注于视频内容分析和生成的轻量化语言模型。
这是一个基于Qwen2.5-32B模型的4位量化版本,专为高效推理和低资源部署设计。
InternLM3 是一个专注于文本生成的模型集合,提供多种优化版本以满足不同需求。
基于特定模型的量化大型语言模型,适用于自然语言处理等任务。
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Openai
$0.4
-
128
Huawei
32
Chatglm
Tencent
$0.5
$2
224
$1
$3
4
Bytedance
Deepseek
8
Alibaba
$6
$18
256
Baidu
$0.8
$3.2
01-ai
$0.99
$0.1
DevQuasar
本项目提供了 Qwen/Qwen3-VL-32B-Thinking 的量化版本(Int4),致力于降低模型部署的硬件门槛,让先进的视觉语言模型知识为每个人所用。
mradermacher
这是一个专注于网络安全领域的20B参数开源大语言模型,基于GPT-OSS架构,并融合了多个网络安全指令数据集进行微调。模型提供了多种量化版本,便于在资源受限的环境中部署,可用于生成网络安全相关的文本、代码和分析报告。
bartowski
这是对TheDrummer的Magidonia-24B-v4.3大语言模型进行量化处理后的版本。通过使用llama.cpp的imatrix量化技术,生成了从BF16到IQ2_XS等多种精度的GGUF格式文件,旨在不同硬件条件下(尤其是资源受限环境)更高效地运行模型,同时尽可能保持模型性能。
本项目是TheDrummer的Cydonia-24B-v4.3模型的量化版本,使用llama.cpp进行量化处理,旨在提供不同量化类型的模型文件,以满足不同硬件和性能需求。它是一个24B参数的大语言模型,主要用于文本生成任务。
MaziyarPanahi
这是NousResearch/Hermes-4.3-36B模型的GGUF量化格式版本,由MaziyarPanahi进行量化处理。GGUF是一种高效的模型格式,旨在优化本地部署和推理性能,支持多种量化级别(2位至8位),适用于广泛的文本生成任务。
DavidAU
Qwen3-4B-Hivemind-Instruct-NEO-MAX-Imatrix-GGUF 是一款基于 Qwen3 架构的 4B 参数指令微调大语言模型,采用 NEO Imatrix 与 MAX 量化技术,具备 256k 的超长上下文处理能力。该模型在多个基准测试中表现出色,是一款性能强劲的通用型模型。
这是由Mistral AI开发的大型语言模型Mistral-Large-3-675B-Instruct-2512的GGUF量化版本。原始模型拥有6750亿参数,专为指令遵循任务设计。本项目使用llama.cpp工具,结合imatrix校准数据集,生成了从Q8_0到IQ1_S共20多种不同精度的量化模型文件,旨在平衡模型性能、推理速度与存储/内存占用,使其能在更广泛的硬件上运行。
hitonet
Hito 1.7B 是一个专为 llama.cpp、Ollama、LM Studio 等工具优化的 GGUF 量化版本模型,具备 17 亿参数,采用嵌套认知推理(NCR)方法,能够实现结构化、自我纠错的思维模式,提升推理准确性与透明度。
T5B
Z-Image-Turbo 是经过 FP8 E5M2 和 E4M3FN 格式量化的图像处理模型,基于原始 Tongyi-MAI/Z-Image-Turbo 模型优化,在保持性能的同时显著减少模型大小和推理资源需求。
SerialKicked
这是Qwen3-VL-32B-Thinking-heretic的量化版本,采用新的消融方法进行量化,相比传统方法对基础模型的损害更小。提供多种量化精度版本,适合在24GB显存设备上运行,支持图文转文本任务。
silveroxides
基于 black-forest-labs/FLUX.2-dev 的优化版本图像生成模型,支持图像到图像的生成和编辑任务,采用 fp8_scaled 量化技术提升推理速度,特别适合在低显存 GPU 上使用。
这是微软Fara-7B模型的量化版本,使用llama.cpp的imatrix技术进行优化。该模型支持多种量化级别,从高精度的bf16到极低精度的IQ2_M,满足不同硬件配置和性能需求。
ryandono
本模型是 mixedbread-ai/mxbai-edge-colbert-v0-17m 的量化(Int8 / Q8)版本,专为与 transformers.js 配合使用而导出。它包含了48维ColBERT架构所需的自定义投影层,旨在提供高效的向量检索能力。
这是ArliAI的GLM-4.5-Air-Derestricted模型的GGUF量化版本,使用llama.cpp和imatrix技术进行优化量化处理,提供多种量化级别选择,适用于不同硬件配置和性能需求。
diffusers
FLUX.2-dev是基于NF4量化的DiT和文本编码器的图像生成与编辑模型,提供高质量的图像生成和编辑能力,适用于图像领域的开发应用。
这是squ11z1的Hypnos-i1-8B模型的量化版本,使用llama.cpp工具和特定数据集进行量化处理。该模型基于Llama-3架构,提供多种量化类型选择,支持文本生成任务,适用于推理、对话等多种应用场景。
nightmedia
这是一个实验性的量化大语言模型,采用Deckard(qx)量化方法,嵌入层为3位量化。该模型通过范数保持双投影消除(NPBA)技术重构,不仅移除了安全限制机制,还增强了模型的认知深度和推理能力。
huawei-csl
这是使用华为SINQ(Sinkhorn归一化量化)方法对Qwen3-Next-80B大语言模型进行4位量化后的版本。SINQ是一种新颖、快速且高质量的量化方法,旨在显著压缩模型体积(约减少75%),同时保持与原始模型几乎不变的准确性,使其更易于部署。
ExaltedSlayer
Gemma 3是谷歌推出的轻量级开源多模态模型,本版本为12B参数的指令调优量化感知训练模型,已转换为MLX框架的MXFP4格式,支持文本和图像输入并生成文本输出,具有128K上下文窗口和140+语言支持。
这是由miromind-ai开发的MiroThinker-v1.0-8B模型的量化版本,使用特定工具和数据集进行量化处理,提供多种量化类型的文件供用户选择,可在不同环境中运行,以满足不同性能和质量需求。
XTQuantAI是一个基于MCP协议的服务器,将迅投量化平台与AI助手集成,实现AI直接访问和操作量化交易数据。
Vibe-Eyes是一个MCP服务器项目,通过向量化画布可视化和调试信息,使LLM能够'看到'基于浏览器的游戏和应用程序中发生的事情。
MCP_Agent:RE是一个用于从TAPD平台获取需求和缺陷数据并生成质量分析报告的Python项目,提供数据获取、预处理、向量化、智能搜索和报告生成等完整工具链,支持AI驱动的测试管理。
一个使用DuckDB和Plamo-Embedding-1B实现RAG功能的项目,支持markdown文件向量化存储和检索,并提供MCP服务接口。
基于检索增强生成(RAG)的Godot文档查询助手,通过向量化技术和语义搜索实现智能问答
Unsloth MCP Server是一个用于高效微调大语言模型的服务器,通过优化算法和4位量化技术,实现2倍训练速度提升和80%显存节省,支持多种主流模型。
MCP代码索引器是一个专为AI大语言模型设计的智能代码检索工具,通过语义理解和向量化索引提升代码处理效率和准确性,支持代码分析、质量评估和依赖管理等功能。
一个MCP服务器,通过语义搜索为AI代理提供相关的以太坊改进提案(EIP)内容,支持Markdown文档处理和向量化检索。
QuantConnect MCP Server是一个专为量化交易设计的本地化模型上下文协议服务器,提供完整的QuantConnect平台集成,包括研究环境、统计分析、组合优化等功能,支持通过自然语言与AI助手交互进行量化策略开发。
FinQ4Cn-mcp-server是一个基于akshare库的金融数据服务工具,专注于中国A股市场,提供股票及相关金融产品的多维度数据支持,适用于量化分析和国内股票市场研究。
一个提供加密货币技术分析指标和交易策略的MCP服务器,支持AI交易代理进行市场趋势分析和量化策略开发。
Unsloth MCP Server是一个用于高效微调大语言模型的服务,基于Unsloth库实现2倍加速和80%内存节省,支持多种模型和量化技术。
MonteWalk是一个基于MCP协议的机构级量化交易工具服务器,为AI助手提供实时市场数据、投资组合管理、风险分析和回测功能,包含25+工具和6个智能工作流,通过Gradio 6界面提供专业交易终端体验。
Brain Server是一个基于MCP协议的知识嵌入与向量搜索服务,提供高质量文本向量化、语义搜索和知识管理功能,支持多种嵌入模型和Docker部署。
一个AI知识库与数据处理项目,包含向量数据库处理、MCP协议支持及核心功能库,支持文本分块、向量化搜索和调试工具。
一个基于MCP框架的Qdrant向量数据库服务,提供文本向量化存储与相似性搜索功能。