NexaAI
Qwen3-VL-8B-Thinking是阿里云Qwen团队开发的80亿参数多模态大语言模型,专为深度多模态推理设计,支持视觉理解、长上下文处理和结构化思维链生成,在复杂推理任务中表现出色。
OmniNeural是全球首个专门为神经处理单元(NPU)设计的全多模态模型,能够原生理解文本、图像和音频,可在PC、移动设备、汽车、物联网和机器人等多种设备上运行。
NexaAI/Qwen3-4B是基于Qwen3系列的40亿参数大语言模型,支持思维模式与非思维模式无缝切换,在推理、指令遵循、智能体能力和多语言支持方面表现优异。
NexaAI/Qwen3-0.6B是基于Qwen3系列的0.6B参数语言模型,在推理、指令遵循、多语言支持等方面表现出色。支持思维模式和非思维模式无缝切换,适用于复杂逻辑推理和高效通用对话。
基于OpenAI Whisper架构微调的自动语音识别和语音翻译模型,通过减少解码层数量实现显著速度提升,同时保持接近原版的识别质量。
这是OpenAI GPT OSS 20B模型的GGUF版本,拥有210亿参数,其中36亿为活跃参数。该版本针对本地部署和特定使用场景进行了优化,旨在降低推理延迟,提高运行效率。
Gemma 3n 是基于 Google Gemma 模型的多模态轻量级开源模型,支持文本、图像、视频和音频输入,专为低资源设备优化。
Parakeet TDT 0.6B v2 MLX是一款高效的自动语音识别模型,支持标点、大小写和精确时间戳预测,能够转录长达24分钟的音频片段,适用于商业和非商业用途。
Kokoro是一款8200万参数的开源文本转语音模型,采用轻量级架构但能提供与大型模型相媲美的质量,具有速度快、成本低的优势,采用Apache许可证,适用于生产环境和个人项目
Qwen3-0.6B是基于Qwen3系列的大语言模型,支持文本生成,具有独特的思维模式切换、强大的推理能力和多语言支持等特性。
Qwen2.5-VL是基于图像文本到文本的多模态模型,在视觉理解、视频处理、结构化输出等方面有显著提升。
Qwen2.5-Omni-3B-GGUF 是一个端到端的多模态模型,能够感知文本、图像、音频和视频等多种模态信息,同时以流式方式生成文本和自然语音响应。
NexaAIDev
全球最快、最高效的端侧部署音频语言模型,2.6B参数的多模态模型,可同时处理文本和音频输入。
OmniAudio是全球最快且最高效的适用于设备端部署的音频语言模型,拥有26亿参数,能够处理文本和音频输入。
Qwen2-Audio是先进的小规模多模态模型,支持音频与文本输入,无需依赖语音识别模块即可实现语音交互。
Qwen2-Audio 是一款先进的小规模多模态模型,支持音频和文本输入,无需ASR模块即可进行语音交互。
章鱼模型V2是一款20亿参数的开源语言模型,专为安卓API优化,采用功能令牌策略提升推理速度和准确性。