Meta旗下Llama系列AI模型曾备受好评,但2025年4月推出的Llama4引发信任危机。Meta宣传其基准测试表现优秀,但开发者实测发现性能远低于宣传,外界怀疑Meta在测试中可能采取了不当手段。
中国AI开源模型全球影响力显著提升。2025年7月,阿里通义千问全球下载量居首,中国开源模型下载总量首超美国。在第三方API平台,千问成为全球第二大受欢迎开源模型,仅次于Meta Llama。西方媒体关注此趋势,认为“生态广度”正成为AI竞争新标准。
Meta 下一代旗舰大模型代号 Avocado,定位为 Llama 系列继任者,计划于 2026 年第一季度发布。该模型将采用闭源商业化路线,性能对标 GPT-5 与 Gemini,旨在与 OpenAI、Google 等公司的封闭模型生态正面竞争。
新加坡AISG发布新一代大语言模型Qwen-Sea-Lion-v4,底层架构从Meta Llama切换为阿里Qwen3-32B,在东南亚语言评估基准Sea-Helm的<2000亿参数开源榜单夺冠。切换主因:Qwen3预训练覆盖119种语言/方言,对印尼语等低资源语言适配更优;分词优化放弃西方常用方案,原生多语架构降低后续训练门槛。
一款高效的推理与聊天大语言模型。
端侧可用的GPT-4V级多模态大模型
一款由Gradient AI团队开发的高性能文本生成模型。
TinyLlama项目旨在在3万亿令牌上预训练一个1.1B Llama模型。通过一些适当的优化,我们可以在“仅”90天内使用16个A100-40G GPU完成。训练已于2023-09-01开始。
Google
$0.49
输入tokens/百万
$2.1
输出tokens/百万
1k
上下文长度
$0.7
$2.8
Anthropic
$7
$35
200
$17.5
$21
$105
Alibaba
$2
$20
-
$8
$240
52
Moonshot
$4
$16
256
Bytedance
Tencent
$1
32
Baidu
Openai
$0.4
128
$0.75
64
bartowski
本项目是TheDrummer的Cydonia-24B-v4.3模型的量化版本,使用llama.cpp进行量化处理,旨在提供不同量化类型的模型文件,以满足不同硬件和性能需求。它是一个24B参数的大语言模型,主要用于文本生成任务。
这是由Mistral AI开发的大型语言模型Mistral-Large-3-675B-Instruct-2512的GGUF量化版本。原始模型拥有6750亿参数,专为指令遵循任务设计。本项目使用llama.cpp工具,结合imatrix校准数据集,生成了从Q8_0到IQ1_S共20多种不同精度的量化模型文件,旨在平衡模型性能、推理速度与存储/内存占用,使其能在更广泛的硬件上运行。
这是通过REAP方法对MiniMax-M2均匀裁剪25%的专家得到的172B参数大语言模型,专门针对llama.cpp进行了优化量化处理,支持多种量化级别,可在LM Studio或基于llama.cpp的项目中运行。
这是p-e-w/gpt-oss-20b-heretic模型的量化版本,使用llama.cpp的imatrix技术进行量化处理。该模型是一个200亿参数的大语言模型,提供了多种量化选项,从高质量到低质量不等,文件大小从41.86GB到11.52GB,适用于不同硬件条件。
这是英伟达Qwen3-Nemotron-32B-RLBFF大语言模型的GGUF量化版本,使用llama.cpp工具进行多种精度量化,提供从BF16到IQ2_XXS共20多种量化选项,适用于不同硬件配置和性能需求。
这是Qwen3-VL-2B-Thinking模型的Llamacpp imatrix量化版本,提供了多种量化类型的文件,可在不同硬件环境下高效运行。该模型是一个2B参数的多模态视觉语言模型,具备思维链推理能力。
这是Qwen3-VL-2B-Instruct模型的量化版本,使用llama.cpp工具和imatrix方法生成了多种量化级别的模型文件,便于在不同硬件环境下高效运行。该模型是一个2B参数的多模态视觉语言模型,支持图像和文本的交互。
danielus
该模型是cerebras/Qwen3-Coder-REAP-25B-A3B的GGUF格式转换版本,使用llama.cpp工具进行格式转换和量化处理。原始模型是一个25B参数的大语言模型,专门针对代码生成任务进行优化。
nvidia
Llama Nemotron Embedding 1B模型是NVIDIA开发的专为多语言和跨语言文本问答检索优化的嵌入模型,支持26种语言,能够处理长达8192个标记的文档,并可通过动态嵌入大小大幅减少数据存储占用。
mintujohnson
这是一个基于Llama-3.2-3B架构的微调语言模型,专门针对法语和英语的文本生成任务进行了优化训练。该模型使用了Unsloth和Huggingface的TRL库进行训练,训练速度提升了2倍,支持高效的文本生成推理。
这是TheDrummer的Cydonia - R1 - 24B - v4.1模型的量化版本,使用llama.cpp工具进行多种精度量化处理,可在不同硬件条件下高效运行,为用户提供更多选择。
这是MistralAI Magistral Small 2509模型的量化版本,使用llama.cpp的imatrix技术进行量化处理。该版本在保持相对较好性能的同时,显著减少了模型的内存占用和计算资源需求,使其能够在各种硬件环境下运行。
这是ByteDance-Seed的Seed-OSS-36B-Instruct模型的量化版本,通过llama.cpp工具进行多种精度量化处理,提供了从BF16到IQ2_XXS等20多种量化选项,旨在提升模型在不同硬件上的运行效率和性能。
echos-keeper
这是一个经过蒸馏的小型语言模型,基于GPT架构,从20B参数模型蒸馏到1.7B参数,并转换为GGUF格式以便在llama.cpp中使用。模型具有高效的推理性能和较小的资源需求。
maerong3
这是一个基于Mistral架构的24B参数大型语言模型,通过llama.cpp转换为GGUF格式。模型支持多语言交互,特别优化了指令跟随能力,适用于各种文本生成和理解任务。
这是TheDrummer的Cydonia-R1-24B-v4模型的量化版本,使用llamacpp工具进行imatrix量化处理,提供多种量化选项以满足不同硬件需求。该模型为24B参数规模的大语言模型,经过优化可在各种设备上高效运行。
lmstudio-community
这是Qwen3 235B A22B Thinking 2507模型的量化版本,通过llama.cpp的量化技术实现,可在资源有限环境下高效运行文本生成任务,是LM Studio社区模型亮点计划的一部分。
BruhzWater
Lilith's-Whisper-L3.3-70b-0.1是一个基于Llama 3.3架构的70B参数大型语言模型,专门针对角色扮演(RP)场景优化。该模型采用2/3阶段合并方式,融合了多个顶级RP模型的优势,为角色扮演应用提供了强大的对话生成能力。
这是Google medgemma - 27b - it模型的Llamacpp imatrix量化版本,主要应用于医疗领域的图像-文本转换任务。
second-state
这是Google Gemma-3n-E2B-it模型的量化版本,支持使用LlamaEdge框架运行。该模型是一个27亿参数的多语言指令调优模型,专门针对英语和E2B(English-to-Bengali)翻译任务进行了优化。