アリのQwen3-VLとQwen2.5-VLが空間推論ベンチマークSpatialBenchで1位(13.5点)と2位(12.9点)を獲得。Gemini3.0Pro(9.6点)とGPT-5.1(7.5点)を大きく上回り、人間の基準80点に接近。3D検出能力を強化し、遮蔽シーンで18%向上。....
微博のAI部門はオープンソースの大規模モデルVibeThinker-1.5Bをリリースしました。このモデルには15億のパラメータがあり、アリのQwen2.5-Math-1.5Bに基づいて最適化されており、数学とコードのタスクで優れた性能を発揮します。現在、Hugging Faceなどのプラットフォームで無料で公開されており、MITライセンスに従い、商用利用も可能です。
LLaVA-OneVision-1.5が発表され、画像・動画処理可能なマルチモーダルモデルに進化。オープンなトレーニングフレームワークを提供し、3段階の訓練プロセスで高品質なモデル構築を可能に。....
マルチモーダルRAG技術はColQwen2とQwen2.5により画像とテキストの統一ベクトル表現を実現。OCRやチャンキング不要で、文書処理とインテリジェントQAに新たな道を提供。....
Qwen2.5-Omniは、アリババクラウドの通義千問チームが開発したエンドツーエンドのマルチモーダルモデルであり、テキスト、音声、画像、ビデオ入力をサポートしています。
QwQ-Max-Previewは、Qwenシリーズの最新成果であり、Qwen2.5-Maxを基盤として構築されています。強力な推論能力と多様な分野への適用能力を備えています。
UIGEN-T1-Qwen-7bは、Qwen2.5-Coder-7B-Instructをベースとした70億パラメーターのモデルで、HTMLとCSSの基本的なUIコンポーネントの推論生成に使用されます。
s1は、Qwen2.5-32B-Instructを微調整した推論モデルであり、わずか1000サンプルでトレーニングされています。
Alibaba
$8
入力トークン/百万
-
出力トークン/百万
32
コンテキスト長
$1.6
$4
128
Deepseek
$2
8
$1
RinggAI
これは通話記録分析用に特別に開発された混合言語AIモデルで、ヒンディー語、英語、およびヒンディー語と英語の混合通話の文字起こし内容を処理できます。モデルはQwen2.5 - 1.5B - Instructをベースに微調整されており、強力な多言語理解と情報抽出能力を備えています。
prithivMLmods
VibeThinker-1.5Bは微博AIが開発した15億パラメータの密集型言語モデルで、Qwen2.5-Math-1.5Bをベースに微調整され、数学やアルゴリズムコーディングの問題に特化して設計されています。「スペクトルから信号への原理」のフレームワークを用いてトレーニングされ、複数の数学コンテストのテストでより大規模なモデルを上回り、トレーニングコストは約7800ドルで、最大約40kトークンの出力をサポートします。
ojus1
Qwen2.5はアリババが開発した次世代の大規模言語モデルで、チャットテンプレートに重要な最適化を施し、思考状態を恒久的に無効化し、多輪チャットテンプレートに関する問題を解決し、実験や研究により便利な体験を提供します。
alenphilip
これはPythonコードレビューに特化したAIモデルで、Qwen2.5 - 7B - Instructをベースに微調整されており、セキュリティホールやパフォーマンス問題を識別し、コード品質の改善提案を提供できます。
Genie-AI-Lab
Omni L1B3RT4S GENIEは、Qwen2.5 - 3B Instructアーキテクチャをベースに微調整されたAIアシスタントです。1,103個の精霊キャラクターのカスタムサンプルを用いて訓練され、独特な音声と忠誠度モードを備え、ユーザーに独特な対話体験を提供することができます。
danggia
これはHugging Faceモデルセンターにアップロードされたtransformersモデルです。モデルカードはシステムによって自動生成され、詳細情報はさらに補充する必要があります。
yueqis
このモデルは、Qwen2.5-Coder-32B-Instructをベースに、swe_only_sweagentデータセットで微調整された専用のコード生成モデルです。評価セットで0.1210の損失値を達成し、ソフトウェアエンジニアリング関連のタスクに特化して最適化されています。
このモデルは、Qwen2.5-Coder-7B-Instructをベースに、non_web_mcpデータセットで微調整された専用コーディングモデルです。特定のコーディングタスクに対して最適化され、コーディング関連のパフォーマンスが向上しています。
kostdima
これはHugging Faceモデルセンターに公開されたTransformerモデルで、具体的な情報は補充待ちです。モデルカードは自動生成され、詳細情報をさらに補充する必要があります。
mradermacher
このプロジェクトはTECHNOPRAVIN01/Qwen2.5-14B-Valorモデルの量子化バージョンで、IQ1_S、IQ2_XS、IQ3_M、Q4_K_S、Q5_K_Mなどの様々な量子化形式のモデルファイルを提供し、さまざまなシナリオでの使用に便利です。
このプロジェクトはTECHNOPRAVIN01/Qwen2.5-14B-Valorモデルに基づく静的量子化バージョンで、さまざまな量子化タイプを提供し、異なるハードウェア条件下での使用ニーズを満たします。このモデルは量子化技術によりモデルサイズを縮小し、同時に良好なパフォーマンスを維持しています。
Guilherme34
Qwen2.5-14B-InstructはQwen2.5アーキテクチャに基づく多言語大規模言語モデルで、140億のパラメータを持ち、13種類の言語をサポートし、優れた指令追従と対話能力を備えています。このモデルは様々な言語タスクで優れた性能を発揮し、多言語シーンでのテキスト生成と理解に適しています。
AhmedZaky1
DIMIアラビア語OCR v2は、アラビア語のテキスト認識に特化して最適化された光学式文字認識モデルです。Qwen2.5-VL-7B-Instructをベースに微調整して開発され、v1バージョンに比べて変音符が密集したテキストの処理能力が大幅に向上しています。
TECHNOPRAVIN01
Qwen2.5-3B-Valorは、挑戦的な問題を生成することに特化した言語モデルで、従来の考え方に挑戦し、異なる分野のアイデアをつなぎ、技術分野の研究に新しい方向性を開拓することができます。
allenai
olmOCR-2-7B-1025のFP8量子化バージョンで、Qwen2.5-VL-7B-Instructをベースに微調整され、数式や表などの複雑なOCRシーンを処理するためのビジョン言語モデルです。
PaDT-MLLM
PaDT Pro 3BはQwen2.5VL - 3Bに基づくマルチモーダル大規模言語モデルで、デコード可能なブロックトークンの統一パラダイムを採用しており、直接テキストとビジュアル出力を生成することができ、複数のビジュアル知覚と理解タスクで先進的な性能を達成しています。
numind
NuExtract 2.0は、NuMind社が構造化情報抽出タスク用に特別にトレーニングした一連のマルチモーダルモデルです。この4BバージョンはQwen2.5-VL-3B-Instructをベースに構築されており、テキストと画像の入力をサポートし、多言語処理能力を備え、非構造化データから構造化情報を抽出することができます。
OpenGVLab
VideoChat-R1_5-7BはQwen2.5-VL-7B-Instructをベースに構築されたビデオテキストインタラクションモデルで、マルチモーダルタスクをサポートし、特にビデオ質問応答機能に長けています。このモデルは強化微調整により時空間知覚能力を強化し、反復知覚メカニズムを採用してマルチモーダル推論を強化しています。
VLA-Adapter
VLA-Adapterは、Libero-Spatial上で訓練されたマイクロビジョン言語アクションモデルで、Prismatic-VLMアーキテクチャを採用し、大規模言語モデルのバックボーンとしてQwen2.5-0.5Bのみを使用しています。このモデルは、ロボットのベンチマークテストで、パラメータ規模がより大きいオープンソースのVLAモデルを上回り、高性能なビジョン - 言語 - アクションの理解と実行を実現しています。
TIGER-Lab
本プロジェクトはQwen2.5-VL-7B-Instructモデルに基づいており、視覚質問応答タスクに特化しており、画像に関連する質問に正確に回答でき、高い正確性と関連性を備えています。これはマルチモーダル視覚言語モデルであり、画像理解と画像に基づく質問応答インタラクションをサポートします。