微博のAI部門はオープンソースの大規模モデルVibeThinker-1.5Bをリリースしました。このモデルには15億のパラメータがあり、アリのQwen2.5-Math-1.5Bに基づいて最適化されており、数学とコードのタスクで優れた性能を発揮します。現在、Hugging Faceなどのプラットフォームで無料で公開されており、MITライセンスに従い、商用利用も可能です。
LLaVA-OneVision-1.5が発表され、画像・動画処理可能なマルチモーダルモデルに進化。オープンなトレーニングフレームワークを提供し、3段階の訓練プロセスで高品質なモデル構築を可能に。....
マルチモーダルRAG技術はColQwen2とQwen2.5により画像とテキストの統一ベクトル表現を実現。OCRやチャンキング不要で、文書処理とインテリジェントQAに新たな道を提供。....
アリババのQwenチームは、GUI自動化の課題解決に向け、Mobile-Agent-v3とGUI-Owlを発表。Qwen2.5-VLベースのGUI-Owlは、マルチモーダルモデルと大量のGUIデータで訓練され、従来の制約を突破しました。....
Qwen2.5-Omniは、アリババクラウドの通義千問チームが開発したエンドツーエンドのマルチモーダルモデルであり、テキスト、音声、画像、ビデオ入力をサポートしています。
olmOCR-7B-0225-previewは、Qwen2-VL-7B-Instructをファインチューニングしたドキュメント画像認識モデルであり、ドキュメントをプレーンテキストに効率的に変換するために使用されます。
QwQ-Max-Previewは、Qwenシリーズの最新成果であり、Qwen2.5-Maxを基盤として構築されています。強力な推論能力と多様な分野への適用能力を備えています。
UIGEN-T1-Qwen-7bは、Qwen2.5-Coder-7B-Instructをベースとした70億パラメーターのモデルで、HTMLとCSSの基本的なUIコンポーネントの推論生成に使用されます。
alibaba
-
入力トークン/百万
出力トークン/百万
32k
コンテキスト長
$2.52
$2.88
131.1k
128k
$0.65
1M
alenphilip
これはPythonコードレビューに特化したAIモデルで、Qwen2.5 - 7B - Instructをベースに微調整されており、セキュリティホールやパフォーマンス問題を識別し、コード品質の改善提案を提供できます。
Genie-AI-Lab
Omni L1B3RT4S GENIEは、Qwen2.5 - 3B Instructアーキテクチャをベースに微調整されたAIアシスタントです。1,103個の精霊キャラクターのカスタムサンプルを用いて訓練され、独特な音声と忠誠度モードを備え、ユーザーに独特な対話体験を提供することができます。
danggia
これはHugging Faceモデルセンターにアップロードされたtransformersモデルです。モデルカードはシステムによって自動生成され、詳細情報はさらに補充する必要があります。
yueqis
このモデルは、Qwen2.5-Coder-32B-Instructをベースに、swe_only_sweagentデータセットで微調整された専用のコード生成モデルです。評価セットで0.1210の損失値を達成し、ソフトウェアエンジニアリング関連のタスクに特化して最適化されています。
このモデルは、Qwen2.5-Coder-7B-Instructをベースに、non_web_mcpデータセットで微調整された専用コーディングモデルです。特定のコーディングタスクに対して最適化され、コーディング関連のパフォーマンスが向上しています。
kostdima
これはHugging Faceモデルセンターに公開されたTransformerモデルで、具体的な情報は補充待ちです。モデルカードは自動生成され、詳細情報をさらに補充する必要があります。
mradermacher
このプロジェクトはTECHNOPRAVIN01/Qwen2.5-14B-Valorモデルの量子化バージョンで、IQ1_S、IQ2_XS、IQ3_M、Q4_K_S、Q5_K_Mなどの様々な量子化形式のモデルファイルを提供し、さまざまなシナリオでの使用に便利です。
このプロジェクトはTECHNOPRAVIN01/Qwen2.5-14B-Valorモデルに基づく静的量子化バージョンで、さまざまな量子化タイプを提供し、異なるハードウェア条件下での使用ニーズを満たします。このモデルは量子化技術によりモデルサイズを縮小し、同時に良好なパフォーマンスを維持しています。
Guilherme34
Qwen2.5-14B-InstructはQwen2.5アーキテクチャに基づく多言語大規模言語モデルで、140億のパラメータを持ち、13種類の言語をサポートし、優れた指令追従と対話能力を備えています。このモデルは様々な言語タスクで優れた性能を発揮し、多言語シーンでのテキスト生成と理解に適しています。
AhmedZaky1
DIMIアラビア語OCR v2は、アラビア語のテキスト認識に特化して最適化された光学式文字認識モデルです。Qwen2.5-VL-7B-Instructをベースに微調整して開発され、v1バージョンに比べて変音符が密集したテキストの処理能力が大幅に向上しています。
TECHNOPRAVIN01
Qwen2.5-3B-Valorは、挑戦的な問題を生成することに特化した言語モデルで、従来の考え方に挑戦し、異なる分野のアイデアをつなぎ、技術分野の研究に新しい方向性を開拓することができます。
allenai
olmOCR-2-7B-1025のFP8量子化バージョンで、Qwen2.5-VL-7B-Instructをベースに微調整され、数式や表などの複雑なOCRシーンを処理するためのビジョン言語モデルです。
PaDT-MLLM
PaDT Pro 3BはQwen2.5VL - 3Bに基づくマルチモーダル大規模言語モデルで、デコード可能なブロックトークンの統一パラダイムを採用しており、直接テキストとビジュアル出力を生成することができ、複数のビジュアル知覚と理解タスクで先進的な性能を達成しています。
numind
NuExtract 2.0は、NuMind社が構造化情報抽出タスク用に特別にトレーニングした一連のマルチモーダルモデルです。この4BバージョンはQwen2.5-VL-3B-Instructをベースに構築されており、テキストと画像の入力をサポートし、多言語処理能力を備え、非構造化データから構造化情報を抽出することができます。
OpenGVLab
VideoChat-R1_5-7BはQwen2.5-VL-7B-Instructをベースに構築されたビデオテキストインタラクションモデルで、マルチモーダルタスクをサポートし、特にビデオ質問応答機能に長けています。このモデルは強化微調整により時空間知覚能力を強化し、反復知覚メカニズムを採用してマルチモーダル推論を強化しています。
VLA-Adapter
VLA-Adapterは、Libero-Spatial上で訓練されたマイクロビジョン言語アクションモデルで、Prismatic-VLMアーキテクチャを採用し、大規模言語モデルのバックボーンとしてQwen2.5-0.5Bのみを使用しています。このモデルは、ロボットのベンチマークテストで、パラメータ規模がより大きいオープンソースのVLAモデルを上回り、高性能なビジョン - 言語 - アクションの理解と実行を実現しています。
TIGER-Lab
本プロジェクトはQwen2.5-VL-7B-Instructモデルに基づいており、視覚質問応答タスクに特化しており、画像に関連する質問に正確に回答でき、高い正確性と関連性を備えています。これはマルチモーダル視覚言語モデルであり、画像理解と画像に基づく質問応答インタラクションをサポートします。
PhongInk
これは🤗 Transformersアーキテクチャに基づくモデルで、具体的なタイプと機能はさらなる情報確認待ちです。モデルはHugging Faceモデルセンターに公開されており、自然言語処理などの関連タスクに使用できます。
Qwen2.5-14B-Instructは140億パラメータの大規模言語モデルで、チャットとテキスト生成シーン向けに設計されています。このモデルはtransformersライブラリに基づいて構築され、内部テストと軽量アプリケーションのデプロイに適しています。
Barth371
これは unsloth/qwen2.5-vl-72b-instruct-bnb-4bit モデルをベースに微調整された視覚言語モデルで、Unsloth と Huggingface TRL ライブラリを使用して最適化訓練され、訓練速度は従来方式に比べて2倍に向上しています。