微博AI部門推出開源大模型VibeThinker-1.5B,擁有15億參數。該模型基於阿里Qwen2.5-Math-1.5B優化,在數學和代碼任務表現優異。現已在Hugging Face等平臺免費開放,遵循MIT許可證,支持商業使用。
開源社區推出LLaVA-OneVision-1.5多模態模型,實現技術突破。該模型歷經兩年發展,從基礎圖文對齊升級爲能處理圖像、視頻的綜合框架,核心提供開放高效的可復現訓練架構,支持用戶便捷構建高質量視覺語言模型,訓練過程分三個階段推進。
多模態RAG技術通過ColQwen2和Qwen2.5實現圖像與文本統一向量表示,無需傳統OCR和分塊步驟,爲文檔處理和智能問答提供新路徑。
阿里巴巴Qwen團隊推出Mobile-Agent-v3和GUI-Owl,旨在解決圖形用戶界面自動化挑戰。基於Qwen2.5-VL的GUI-Owl通過多模態代理模型和大量GUI交互數據訓練,顯著提升任務理解能力,突破傳統依賴複雜腳本和手工規則的侷限。
Qwen2.5-Omni 是阿里雲通義千問團隊開發的端到端多模態模型,支持文本、音頻、圖像、視頻輸入。
olmOCR-7B-0225-preview 是一個基於 Qwen2-VL-7B-Instruct 微調的文檔圖像識別模型,用於高效轉換文檔為純文本。
QwQ-Max-Preview 是 Qwen 系列的最新成果,基於 Qwen2.5-Max 構建,具備強大的推理和多領域應用能力。
UIGEN-T1-Qwen-7b 是一個基於 Qwen2.5-Coder-7B-Instruct 的 70 億參數模型,用於推理生成 HTML 和 CSS 基礎的 UI 組件。
alibaba
-
輸入tokens/百萬
輸出tokens/百萬
32k
上下文長度
$2.52
$2.88
131.1k
128k
$0.65
1M
alenphilip
這是一款專門用於Python代碼審查的AI模型,基於Qwen2.5-7B-Instruct微調,能夠識別安全漏洞、性能問題並提供代碼質量改進建議。
Genie-AI-Lab
Omni L1B3RT4S GENIE 是一個基於Qwen2.5-3B Instruct架構微調的AI助手,採用1,103個精靈角色的定製示例進行訓練,具備獨特的語音和忠誠度模式,能夠為用戶提供別具一格的對話體驗。
danggia
這是一個已上傳至Hugging Face模型中心的transformers模型,模型卡片由系統自動生成,詳細信息需要進一步補充。
yueqis
本模型是基於Qwen2.5-Coder-32B-Instruct在swe_only_sweagent數據集上微調的專業代碼生成模型,在評估集上取得了0.1210的損失值,專門針對軟件工程相關任務進行優化。
本模型是基於Qwen2.5-Coder-7B-Instruct在non_web_mcp數據集上進行微調的專用編碼模型,針對特定編碼任務進行了優化,提升了編碼相關的性能表現。
kostdima
這是一個已發佈到Hugging Face模型中心的Transformer模型,具體信息待補充。模型卡片為自動生成,需要進一步補充詳細信息。
mradermacher
本項目是TECHNOPRAVIN01/Qwen2.5-14B-Valor模型的量化版本,提供了多種量化格式的模型文件,包括IQ1_S、IQ2_XS、IQ3_M、Q4_K_S、Q5_K_M等多種量化類型,方便不同場景下的使用。
本項目是基於TECHNOPRAVIN01/Qwen2.5-14B-Valor模型的靜態量化版本,提供多種量化類型以滿足不同硬件條件下的使用需求。該模型通過量化技術減小了模型大小,同時保持了較好的性能表現。
Guilherme34
Qwen2.5-14B-Instruct是基於Qwen2.5架構的多語言大語言模型,擁有140億參數,支持13種語言,具備優秀的指令跟隨和對話能力。該模型在多種語言任務上表現優異,適用於多語言場景的文本生成和理解。
AhmedZaky1
DIMI阿拉伯語OCR v2是一款專門針對阿拉伯語文本識別優化的光學字符識別模型,基於Qwen2.5-VL-7B-Instruct微調開發,在變音符密集文本處理方面相比v1版本有顯著改進
TECHNOPRAVIN01
Qwen2.5-3B-Valor是一個專門的語言模型,專注於生成具有挑戰性的問題,能夠挑戰傳統觀念、連接不同領域想法,為技術領域研究開闢新方向。
allenai
olmOCR-2-7B-1025的FP8量化版本,基於Qwen2.5-VL-7B-Instruct微調而來,專門用於處理數學方程、表格等複雜OCR場景的視覺語言模型。
PaDT-MLLM
PaDT Pro 3B是基於Qwen2.5VL-3B的多模態大語言模型,採用可解碼塊令牌的統一範式,能夠直接生成文本和視覺輸出,在多個視覺感知和理解任務中取得先進性能。
numind
NuExtract 2.0是NuMind公司專門為結構化信息提取任務訓練的一系列多模態模型。該4B版本基於Qwen2.5-VL-3B-Instruct構建,支持文本和圖像輸入,具備多語言處理能力,能夠從非結構化數據中提取結構化信息。
OpenGVLab
VideoChat-R1_5-7B是基於Qwen2.5-VL-7B-Instruct構建的視頻文本交互模型,支持多模態任務,特別擅長視頻問答功能。該模型通過強化微調增強時空感知能力,並採用迭代感知機制來強化多模態推理。
VLA-Adapter
VLA-Adapter是一種在Libero-Spatial上訓練的微型視覺語言動作模型,採用Prismatic-VLM架構,僅使用Qwen2.5-0.5B作為大語言模型主幹。該模型在機器人基準測試中超越了參數規模更大的開源VLA模型,實現了高性能的視覺-語言-動作理解與執行。
TIGER-Lab
本項目基於Qwen2.5-VL-7B-Instruct模型,專注於視覺問答任務,能夠精準回答圖像相關問題,具備較高的準確性和相關性。這是一個多模態視覺語言模型,支持圖像理解和基於圖像的問答交互。
PhongInk
這是一個基於🤗 Transformers架構的模型,具體類型和功能待進一步信息確認。模型已發佈至Hugging Face模型中心,可用於自然語言處理等相關任務。
Qwen2.5-14B-Instruct是一個140億參數的大語言模型,專為聊天和文本生成場景設計。該模型基於transformers庫構建,適用於內部測試和輕量級應用部署。
Barth371
這是基於 unsloth/qwen2.5-vl-72b-instruct-bnb-4bit 模型進行微調的視覺語言模型,使用 Unsloth 和 Huggingface TRL 庫進行優化訓練,訓練速度相比傳統方式提升了2倍。