美团LongCatチームが6BパラメータのLongCat-Image画像生成モデルをオープンソース化。文生図と画像編集で優れた性能を発揮し、性能と利用ハードルのバランスを図り、オープンソースとクローズドソースモデルの技術ギャップを埋める。....
商湯科技と南洋理工大学が共同で開発したネイティブマルチモーダルアーキテクチャ「NEO」を発表し、2Bと9Bモデルをオープンソース化。従来の3段階設計を廃し、注意機構から意味マッピングまで再構築。データ要件は業界平均の10分の1に抑えつつ、「ピクセルからトークン」への連続マッピングを実現。....
アリのQwen3-VLとQwen2.5-VLが空間推論ベンチマークSpatialBenchで1位(13.5点)と2位(12.9点)を獲得。Gemini3.0Pro(9.6点)とGPT-5.1(7.5点)を大きく上回り、人間の基準80点に接近。3D検出能力を強化し、遮蔽シーンで18%向上。....
腾讯が1BパラメータのオープンソースOCRモデル「HunyuanOCR」を発表。混元マルチモーダルアーキテクチャを基に、SOTA性能を達成。エンドツーエンド設計で、高解像度ビデオエンコーダー・適応型視覚適応・軽量言語モデルの3要素を統合。....
OpenAI Sora 2をベースとしたAIビデオ生成器で、テキストまたは画像から音声付きの高画質ビデオを生成できます。
最新の代理フレームワークに基づいたVSCode拡張機能で、コード編集を行います。
マスキング拡散トランスフォーマー (MDT) は画像合成における最新の技術であり、ICCV 2023において最先端 (SOTA) の成果を達成しました。
Alibaba
-
入力トークン/百万
出力トークン/百万
コンテキスト長
Bytedance
$0.5
Chatglm
Minimax
01-ai
4
Nanbeige
楠米色4-3B-思考-2511は楠米色シリーズの最新の強化バージョンで、高度な蒸留技術と強化学習による最適化を通じて、コンパクトな3Bパラメータ規模で強力な推論能力を実現しています。このモデルはArena-Hard-V2やBFCL-V4などのベンチマークテストで、パラメータが32B未満のモデルの中で最先端(SOTA)の成果を達成しています。
noctrex
Gelato-30B-A3Bは、GUIコンピュータ使用タスクに対して微調整された最先端(SOTA)モデルで、デプロイ効率を最適化するために量子化バージョンを提供しています。このモデルは、グラフィカルユーザーインターフェース関連のタスクを理解して処理するように特別に設計されています。
unsloth
Apriel-1.5-15b-ThinkerはServiceNow Apriel SLMシリーズのマルチモーダル推論モデルで、150億のパラメータを持ち、テキストと画像の推論タスクで規模が10倍大きいモデルと競争できます。このモデルは中期トレーニング方式により卓越した推論能力を実現し、画像SFTトレーニングや強化学習なしでSOTA性能を達成します。
XiaomiMiMo
MiMo Audioは大規模事前学習に基づく音声言語モデルで、音声インテリジェンスと音声理解のベンチマークテストでオープンソースモデルのSOTA性能を達成しました。このモデルは強力な少サンプル学習能力を示し、学習データに含まれないタスクに汎化でき、音声変換、スタイル移行、音声編集などのさまざまな音声タスクをサポートします。
cpatonn
GLM-4.5V-AWQ-4bitは、Zhipu AIの次世代フラッグシップテキスト基礎モデルに基づいて構築された量子化バージョンのマルチモーダルモデルで、AWQ-4bit量子化技術により最適化され、優れた性能を維持しながら計算リソースの必要量を大幅に削減します。このモデルは42の公開視覚言語ベンチマークテストで同規模のモデルのSOTA性能を達成し、強力な視覚推論能力を備えています。
JetLM
SDARは、自己回帰と離散拡散モデリング戦略を統合した新しい大規模言語モデルです。ARモデルの効率的な訓練と拡散モデルの並列推論の利点を組み合わせています。一般的なタスクではSOTAオープンソースARモデルと同等の性能を発揮し、科学的推論タスクでは優れた性能を示し、最強の拡散言語モデルとなっています。
tcpipuk
dots.ocrは強力な多言語ドキュメント解析器で、レイアウト検出と内容識別を単一のビジョン言語モデルに統合し、17億のパラメータに基づいてSOTA性能を実現し、多言語ドキュメント解析と良好な閲読順序保持をサポートします。
RiverZ
ICEditは革新的な命令型画像編集手法で、大規模拡散トランスフォーマーを用いて効率的な編集を実現し、SOTA効果を得るために必要なトレーニングデータは0.5%、パラメータ規模は1%のみです。
ubergarm
Qwen3-30B-A3Bの量子化バージョンで、先進的な非線形SotA量子化技術を採用し、与えられたメモリ使用量で同類最高の品質を提供します。
Skywork
SkyReels V2は無限長の映画生成モデルで、自己回帰拡散強制アーキテクチャを採用し、720P高精細動画生成をサポートし、公開モデルの中でSOTA性能を達成しています。
all-hands
Qwen2.5-Coder-32B-Instructをファインチューニングしたレビューモデルで、コードソリューションの品質評価に使用され、SWE-BenchベンチマークでSOTA成績を達成
UCSC-VLAA
VLAA-Thinker-Qwen2.5-3Bは、R1に似た大規模ビジュアル言語推論モデルで、マルチモーダル推論タスクに特化しています。このモデルは、OpenCompassのマルチモーダル推論ランキングでSOTA性能を達成し、画像理解と複雑な推論能力をサポートしています。
qihoo360
Light-R1-32B-DSはSOTAに近いレベルの32B数学モデルで、DeepSeek-R1-Distill-Qwen-32Bをファインチューニングし、わずか3KのSFTデータで高性能を実現しました。
Light-R1-14B-DSは14Bパラメータの数学SOTAモデルで、強化学習で訓練され、AIME24/25およびGPQAベンチマークで優れた性能を発揮します。
xingyang1
Distill-Any-Depthは新しいSOTA単眼深度推定モデルで、知識蒸留アルゴリズムを用いて訓練されています。
Distill-Any-Depthは知識蒸留アルゴリズムで訓練されたSOTA単眼深度推定モデルで、効率的かつ正確に深度推定が可能です。
FireRedTeam
FireRedASRは、標準中国語、中国の方言、英語をサポートするオープンソースの産業用自動音声認識(ASR)モデルシリーズで、公開されている標準中国語ASRベンチマークテストにおいて新たな最先端(SOTA)を達成し、優れた歌詞認識能力も備えています。
FireRedASRは、標準中国語、中国語方言、英語をサポートするオープンソースの産業用自動音声認識(ASR)モデルシリーズです。公開されている標準中国語ASRベンチマークテストで最新最優(SOTA)レベルを達成し、優れた歌詞認識能力も備えています。
ragraph-ai
これはCYPHERクエリ文を生成するために特化した30億パラメータのモデルで、CYPHERの生成においてGPT4 - oなどのSOTAモデルを上回っています。このモデルは特定のデータセットを基に微調整され、テキストをCYPHERクエリ文に変換してGraphDB(Neo4jなど)をクエリすることができます。
llava-hf
LLaVA-NeXT-Videoはオープンソースのマルチモーダルチャットボットで、動画と画像データの混合トレーニングにより優れた動画理解能力を獲得し、VideoMMEベンチマークでオープンソースモデルのSOTAレベルを達成しました。
XiYan MCPサーバーはXiYan - SQLに基づくモデルコンテキストプロトコルサーバーで、自然言語によるデータベースクエリをサポートし、一般的な大規模言語モデル、SOTAのテキストからSQLへのモデル、およびローカルモデルを含むさまざまなモデル構成オプションを提供し、さまざまなセキュリティとパフォーマンスの要件に適しています。