阿里巴巴“千问App”公测一周下载量突破1000万次,创AI应用最快增长纪录,超越ChatGPT等知名产品。其爆发式增长得益于Qwen模型家族长期技术积累,自2023年开源后已在全球超越Llama等竞争对手。
llama.cpp史诗级更新重塑本地AI体验:从极简C++引擎升级为带现代化Web界面的全能工作台,实现多模态输入、结构化输出和并行交互三大突破,功能直追Ollama等工具。这场社区驱动的革新使其从开发者专用工具转变为普通用户易用的AI平台。
微软Azure ND GB300v6虚拟机在Llama270B模型上创下每秒110万token推理速度新纪录。该成就基于与英伟达的深度合作,采用配备72个Blackwell Ultra GPU和36个Grace CPU的NVIDIA GB300NVL72系统,突显微软在规模化AI运算领域的专业实力。
Meta超级智能实验室推出REFRAG技术,使大型语言模型在检索增强生成任务中的推理速度提升超过30倍。这项突破性成果发表于相关论文,深刻变革AI模型运作方式。该实验室今年6月在加州成立,源于扎克伯格对Llama4模型的重视。
使用 Llama 3.3 快速汇总 PDF 文档。
一款高效的推理与聊天大语言模型。
基于Llama框架的TTS基础模型,兼容16万小时标记化语音数据。
LLaDA是一种大规模语言扩散模型,具备强大的语言生成能力,与LLaMA3 8B性能相当。
nvidia
-
输入tokens/百万
输出tokens/百万
128k
上下文长度
meta
$1.22
$4.32
1M
perplexity
127k
deepseek
$0.72
$2.88
$0.58
$2.16
10M
200k
$1.44
$6.48
ai2
mistral
32k
snowflake
$2.52
nous-research
bartowski
这是kldzj/gpt-oss-120b-heretic模型的量化版本,使用llamacpp进行量化处理,提供了多种量化类型选择,包括BF16、Q8_0和MXFP4_MOE等特殊格式,显著提升了模型运行效率。
这是对Qwen3-4B-Instruct-2507-heretic模型进行的量化处理版本,使用llama.cpp工具和imatrix数据集生成了多种量化类型的模型文件,可在多种环境下运行,为用户提供了更多选择。
这是p-e-w/gpt-oss-20b-heretic模型的量化版本,使用llama.cpp的imatrix技术进行量化处理。该模型是一个200亿参数的大语言模型,提供了多种量化选项,从高质量到低质量不等,文件大小从41.86GB到11.52GB,适用于不同硬件条件。
这是zerofata的MS3.2-PaintedFantasy-v3-24B模型的GGUF量化版本,使用llama.cpp工具进行量化处理,提供多种量化类型以满足不同硬件和性能需求。
Ali-Yaser
本模型是基于meta-llama/Llama-3.3-70B-Instruct进行微调得到的版本,使用mlabonne/FineTome-100k数据集进行训练,包含100k token数据。模型采用Unsloth和Huggingface TRL库进行微调,支持英文语言处理。
ggml-org
这是一个基于Qwen3-VL-30B-A3B-Instruct模型转换的GGUF格式版本,专门为llama.cpp优化。该模型是一个300亿参数的多模态视觉语言模型,支持图像理解和文本生成任务。
noctrex
这是慧慧Qwen3-VL-8B思维消融模型的量化版本,基于Qwen3-VL-8B架构,专门针对图像文本转换任务进行了优化和量化处理,可通过llama.cpp工具高效运行。
慧慧Qwen3-VL-4B思维消除模型的量化版本,基于Qwen3-VL-4B模型进行优化,专门设计用于消除思维链推理过程,可搭配最新的llama.cpp使用,提供高效的图像文本转文本处理能力。
Chandra-OCR量化模型是对原Chandra模型进行量化处理后的版本,专门用于图像转文本任务,可配合最新的llama.cpp使用。
这是基于TheDrummer/Rivermind-24B-v1模型的llama.cpp量化版本,使用imatrix技术进行优化量化,提供多种量化级别以适应不同硬件配置,可在多种环境下高效运行。
oberbics
本模型是基于Meta的Llama-3.1架构微调的文本生成模型,使用TRL库和GRPO(Group Relative Policy Optimization)方法进行强化学习训练,专门针对论证生成任务进行了优化。
这是英伟达Qwen3-Nemotron-32B-RLBFF大语言模型的GGUF量化版本,使用llama.cpp工具进行多种精度量化,提供从BF16到IQ2_XXS共20多种量化选项,适用于不同硬件配置和性能需求。
本项目是基于Qwen3-VL-32B-Instruct模型的llama.cpp GGUF量化版本,提供多种量化类型以满足不同硬件和性能需求。使用特定数据集结合imatrix选项进行量化,保证量化质量,支持在线重新打包权重以提高ARM和AVX机器的性能。
这是Qwen3-VL-2B-Thinking模型的Llamacpp imatrix量化版本,提供了多种量化类型的文件,可在不同硬件环境下高效运行。该模型是一个2B参数的多模态视觉语言模型,具备思维链推理能力。
这是Qwen3-VL-2B-Instruct模型的量化版本,使用llama.cpp工具和imatrix方法生成了多种量化级别的模型文件,便于在不同硬件环境下高效运行。该模型是一个2B参数的多模态视觉语言模型,支持图像和文本的交互。
本项目对MiniMaxAI的MiniMax-M2模型进行了量化处理,使用llama.cpp工具,为不同需求的用户提供了多种量化类型的模型文件,方便在不同硬件条件下高效运行模型。
JanusCoderV-7B是由InternLM开发的7B参数代码生成模型,本项目提供了使用llama.cpp进行imatrix量化的多个版本,支持多种量化级别以满足不同硬件需求。
这是internlm的JanusCoder-14B模型的量化版本,使用特定工具和数据集进行量化处理,提供了从低质量到高质量的多种量化类型文件,可在LM Studio或基于llama.cpp的项目中运行。
这是对internlm的JanusCoder-8B模型进行量化处理的版本,采用llama.cpp的imatrix量化技术,在保证性能的前提下显著减少模型的存储和计算资源需求,使模型能够在更多设备上高效运行。
这是MiniMax-M2模型的MXFP4_MOE量化版本,基于unsloth修复聊天模板的版本重新量化,能在特定场景下更高效地使用MiniMax-M2模型的能力。这是一个编码模型,需要配合最新的llama.cpp使用。
该项目展示了如何使用LlamaCloud创建MCP服务器及LlamaIndex作为MCP客户端的应用。
MCP Docling Server是一个提供文档处理能力的服务器,支持多种文档转换和提取功能,包括格式转换、表格提取和问答生成等,可与Llama Stack集成增强LLM应用能力。
该项目实现了一个基于Model Context Protocol (MCP)的文档检索服务器,能够为AI助手动态获取Python库的最新官方文档内容。支持LangChain、LlamaIndex和OpenAI等库,通过SERPER API进行高效搜索,并使用BeautifulSoup解析HTML内容。项目设计可扩展,便于添加更多库的支持。
该项目实现了Yahoo Finance API与LLaMA 3.2 3B模型的集成,通过Model Context Protocol (MCP)协议使模型能够获取实时金融数据、股票信息和市场新闻,同时保留LLaMA原有的所有功能。
mcp-scaffold是一个用于验证模型上下文协议(MCP)服务器的开发沙箱,提供本地LLM(如LLaMA 7B)和云端推理支持,包含聊天界面和参考架构。
一个连接Claude Desktop与本地LibreModel的MCP服务器,提供完整的对话支持、参数控制和健康监控功能
使用Changesets管理项目版本和变更日志
一个基于LlamaIndexTS库的MCP服务器,提供多种LLM工具功能
一个MCP服务器项目,使Claude能够直接访问LangChain、LlamaIndex和OpenAI等流行库的文档,通过Serper API搜索和BeautifulSoup解析内容,增强AI的上下文理解能力。
一个展示MCP协议与SQLite数据库集成的项目,包含简单演示和完整HR管理系统,通过LlamaIndex实现自然语言交互。
这是一个基于Python的MCP服务器,支持通过Serper API搜索LangChain、LlamaIndex和OpenAI的文档,并使用BeautifulSoup提取网页内容。
一个基于TypeScript的MCP服务器,用于连接LlamaCloud上的托管索引,提供知识库查询功能。
这是一个基于FastMCP的异步文档检索服务器,提供AI/Python生态库官方文档的搜索、抓取和清理功能,支持uv、langchain、openai、llama-index等库的文档获取。
基于Llama3和Xterm.js的MCP服务器项目
一个简单的MCP服务器,用于从Langchain、Llama Index和OpenAI的官方文档中检索信息,提供文档搜索功能。
基于Ollama的Llama 3.2构建的自定义MCP服务器与客户端项目
基于MCP Server、Llama3和Xterm.js的项目
一个轻量级的MCP服务器,通过结合网络搜索和内容解析,从LangChain、LlamaIndex和OpenAI等流行AI库中检索相关文档内容,为语言模型提供动态查询最新文档的功能。
项目介绍如何快速搭建基于Ollama和Llama3.2模型的MCP服务,包括环境准备和运行步骤。
这是一个基于Python的MCP服务器项目,支持通过Serper API搜索LangChain、LlamaIndex和OpenAI等流行库的文档,并使用BeautifulSoup提取网页内容。