NexaAI
Qwen3-VL-8B-Thinking是阿里雲Qwen團隊開發的80億參數多模態大語言模型,專為深度多模態推理設計,支持視覺理解、長上下文處理和結構化思維鏈生成,在複雜推理任務中表現出色。
OmniNeural是全球首個專門為神經處理單元(NPU)設計的全多模態模型,能夠原生理解文本、圖像和音頻,可在PC、移動設備、汽車、物聯網和機器人等多種設備上運行。
NexaAI/Qwen3-4B是基於Qwen3系列的40億參數大語言模型,支持思維模式與非思維模式無縫切換,在推理、指令遵循、智能體能力和多語言支持方面表現優異。
NexaAI/Qwen3-0.6B是基於Qwen3系列的0.6B參數語言模型,在推理、指令遵循、多語言支持等方面表現出色。支持思維模式和非思維模式無縫切換,適用於複雜邏輯推理和高效通用對話。
基於OpenAI Whisper架構微調的自動語音識別和語音翻譯模型,通過減少解碼層數量實現顯著速度提升,同時保持接近原版的識別質量。
這是OpenAI GPT OSS 20B模型的GGUF版本,擁有210億參數,其中36億為活躍參數。該版本針對本地部署和特定使用場景進行了優化,旨在降低推理延遲,提高運行效率。
Gemma 3n 是基於 Google Gemma 模型的多模態輕量級開源模型,支持文本、圖像、視頻和音頻輸入,專為低資源設備優化。
Parakeet TDT 0.6B v2 MLX是一款高效的自動語音識別模型,支持標點、大小寫和精確時間戳預測,能夠轉錄長達24分鐘的音頻片段,適用於商業和非商業用途。
Kokoro是一款8200萬參數的開源文本轉語音模型,採用輕量級架構但能提供與大型模型相媲美的質量,具有速度快、成本低的優勢,採用Apache許可證,適用於生產環境和個人項目
Qwen3-0.6B是基於Qwen3系列的大語言模型,支持文本生成,具有獨特的思維模式切換、強大的推理能力和多語言支持等特性。
Qwen2.5-VL是基於圖像文本到文本的多模態模型,在視覺理解、視頻處理、結構化輸出等方面有顯著提升。
Qwen2.5-Omni-3B-GGUF 是一個端到端的多模態模型,能夠感知文本、圖像、音頻和視頻等多種模態信息,同時以流式方式生成文本和自然語音響應。
OmniAudio是全球最快且最高效的適用於設備端部署的音頻語言模型,擁有26億參數,能夠處理文本和音頻輸入。
NexaAIDev
全球最快、最高效的端側部署音頻語言模型,2.6B參數的多模態模型,可同時處理文本和音頻輸入。
Qwen2-Audio是先進的小規模多模態模型,支持音頻與文本輸入,無需依賴語音識別模塊即可實現語音交互。
Qwen2-Audio 是一款先進的小規模多模態模型,支持音頻和文本輸入,無需ASR模塊即可進行語音交互。
章魚模型V2是一款20億參數的開源語言模型,專為安卓API優化,採用功能令牌策略提升推理速度和準確性。