Meta前AI负责人杨立昆在专访中爆料,公司开发Llama 4时存在“造假”行为,并批评现任AI官Alexandr Wang年轻缺乏经验。因不满公司战略变动,他选择离职,转向“世界模型”研究。
Meta旗下Llama系列AI模型曾备受好评,但2025年4月推出的Llama4引发信任危机。Meta宣传其基准测试表现优秀,但开发者实测发现性能远低于宣传,外界怀疑Meta在测试中可能采取了不当手段。
中国AI开源模型全球影响力显著提升。2025年7月,阿里通义千问全球下载量居首,中国开源模型下载总量首超美国。在第三方API平台,千问成为全球第二大受欢迎开源模型,仅次于Meta Llama。西方媒体关注此趋势,认为“生态广度”正成为AI竞争新标准。
Meta 下一代旗舰大模型代号 Avocado,定位为 Llama 系列继任者,计划于 2026 年第一季度发布。该模型将采用闭源商业化路线,性能对标 GPT-5 与 Gemini,旨在与 OpenAI、Google 等公司的封闭模型生态正面竞争。
与LLaMA-Factory官方合作,一站式低代码大模型微调平台,支持超百种模型。
基于Llama框架的TTS基础模型,兼容16万小时标记化语音数据。
LLaDA是一种大规模语言扩散模型,具备强大的语言生成能力,与LLaMA3 8B性能相当。
Llasa-1B 是一个基于 LLaMA 的文本转语音 (TTS) 模型,支持中英文语音合成。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$6
$24
bartowski
这是对TheDrummer的Magidonia-24B-v4.3大语言模型进行量化处理后的版本。通过使用llama.cpp的imatrix量化技术,生成了从BF16到IQ2_XS等多种精度的GGUF格式文件,旨在不同硬件条件下(尤其是资源受限环境)更高效地运行模型,同时尽可能保持模型性能。
本项目是TheDrummer的Cydonia-24B-v4.3模型的量化版本,使用llama.cpp进行量化处理,旨在提供不同量化类型的模型文件,以满足不同硬件和性能需求。它是一个24B参数的大语言模型,主要用于文本生成任务。
这是由Mistral AI开发的大型语言模型Mistral-Large-3-675B-Instruct-2512的GGUF量化版本。原始模型拥有6750亿参数,专为指令遵循任务设计。本项目使用llama.cpp工具,结合imatrix校准数据集,生成了从Q8_0到IQ1_S共20多种不同精度的量化模型文件,旨在平衡模型性能、推理速度与存储/内存占用,使其能在更广泛的硬件上运行。
hitonet
Hito 1.7B 是一个专为 llama.cpp、Ollama、LM Studio 等工具优化的 GGUF 量化版本模型,具备 17 亿参数,采用嵌套认知推理(NCR)方法,能够实现结构化、自我纠错的思维模式,提升推理准确性与透明度。
ss-lab
这是一个基于Meta LLaMA 3 8B模型,使用Unsloth框架进行高效微调,并转换为GGUF格式的轻量级文本生成模型。模型针对Alpaca数据集进行了优化,适用于本地部署和推理,特别适合在资源受限的环境中使用。
本项目提供了一个基于微软Phi-3.5-mini-instruct模型进行微调的文本生成模型,已转换为GGUF格式,适用于llama.cpp推理框架。模型在philschmid/guanaco-sharegpt-style数据集上进行了微调,优化了指令遵循和对话能力,适用于资源受限环境下的高效文本生成任务。
这是微软Fara-7B模型的量化版本,使用llama.cpp的imatrix技术进行优化。该模型支持多种量化级别,从高精度的bf16到极低精度的IQ2_M,满足不同硬件配置和性能需求。
这是ArliAI的GLM-4.5-Air-Derestricted模型的GGUF量化版本,使用llama.cpp和imatrix技术进行优化量化处理,提供多种量化级别选择,适用于不同硬件配置和性能需求。
这是squ11z1的Hypnos-i1-8B模型的量化版本,使用llama.cpp工具和特定数据集进行量化处理。该模型基于Llama-3架构,提供多种量化类型选择,支持文本生成任务,适用于推理、对话等多种应用场景。
这是TheDrummer的Snowpiercer-15B-v4模型的量化版本,使用llama.cpp和imatrix技术进行量化处理。该版本提供了从BF16到IQ2_S等多种量化级别,满足不同硬件条件和性能需求的用户。模型使用特定数据集进行校准优化,支持在线重打包功能以提升在ARM和AVX硬件上的性能。
squ11z1
Hypnos i1-8B 是基于 Nous Hermes 3(Llama 3.1 8B)的专业推理模型,专注于复杂逻辑、思维链推理和数学问题求解。该模型在混合量子-经典机器学习领域进行了独特探索,通过引入量子噪声注入提升了模型的创造力和推理能力。
这是对ai-sage的GigaChat3-10B-A1.8B模型进行的量化处理版本,采用llama.cpp的imatrix量化技术,可在不同硬件条件下更高效地运行。模型支持俄语和英语,主要用于文本生成任务。
这是allenai的Olmo-3-32B-Think模型的GGUF量化版本,通过llama.cpp工具进行多种量化处理,旨在提升模型在特定环境下的性能和效率。提供了从Q2到Q8的多种量化选项,满足不同硬件配置和性能需求。
这是kldzj的GPT-OSS-120B-Heretic-v2模型的量化版本,使用llama.cpp的imatrix技术进行量化处理。该模型通过量化技术显著减少了存储和计算资源需求,同时保持了较好的模型性能,便于在各种设备上部署运行。
evilfreelancer
这是ai-sage/GigaChat3-10B-A1.8B模型的量化版本,采用GGUF格式,需要特定的llama.cpp分支支持。模型采用混合专家架构,总参数量约118亿,其中激活参数量约18亿。
这是对VibeStudio的MiniMax-M2-THRIFT模型进行的量化处理版本,使用llama.cpp工具和特定数据集生成,提供多种量化类型的GGUF文件,支持在LM Studio或基于llama.cpp的项目中运行。
这是通过REAP方法对MiniMax-M2均匀裁剪25%的专家得到的172B参数大语言模型,专门针对llama.cpp进行了优化量化处理,支持多种量化级别,可在LM Studio或基于llama.cpp的项目中运行。
这是一个基于REAP方法对MiniMax-M2中40%专家进行均匀剪枝得到的139B参数大语言模型,采用GLM架构和专家混合(MoE)技术,通过llama.cpp进行多种量化处理,适用于文本生成任务。
advy
本模型是基于meta-llama/Llama-3.1-70B-Instruct在特定数据集上微调得到的大语言模型,专门用于文本生成任务,在评估集上取得了0.6542的损失值表现。
这是kldzj/gpt-oss-120b-heretic模型的量化版本,使用llamacpp进行量化处理,提供了多种量化类型选择,包括BF16、Q8_0和MXFP4_MOE等特殊格式,显著提升了模型运行效率。
该项目实现了Yahoo Finance API与LLaMA 3.2 3B模型的集成,通过Model Context Protocol (MCP)协议使模型能够获取实时金融数据、股票信息和市场新闻,同时保留LLaMA原有的所有功能。
mcp-scaffold是一个用于验证模型上下文协议(MCP)服务器的开发沙箱,提供本地LLM(如LLaMA 7B)和云端推理支持,包含聊天界面和参考架构。
项目介绍如何快速搭建基于Ollama和Llama3.2模型的MCP服务,包括环境准备和运行步骤。
一个轻量级的MCP服务器,通过结合网络搜索和内容解析,从LangChain、LlamaIndex和OpenAI等流行AI库中检索相关文档内容,为语言模型提供动态查询最新文档的功能。