バイドゥが文心大モデルの派生モデルであるPaddleOCR-VL-1.6をリリースし、OmniDocBench v1.6評価で96.33%の正確率を記録し、Gemini-3-ProやGPT-5.2などの主流モデルを上回り、SOTAを更新しました。総合的なパフォーマンスは世界一です。このモデルは、複雑なドキュメント理解と現実的な場面での解析において、マルチモーダル大モデルにおける重要な進歩を示しています。100種類以上の言語認識をサポートし、ユーザーのカバー範囲は広範囲です。
小米は2026年6月30日をもって旧版のMiMo-V2-Pro/Omniモデルの販売を終了し、MiMo V2.5シリーズへとアップグレードすることを発表しました。このうち、mimo-v2-proはv2.5-proに移行し、mimo-v2-omniはv2.5の新しいモデルにアップグレードされます。新バージョンはすでに全面的にリリースされており、より強力な推論能力と高いコストパフォーマンスを提供し、開発者による移行を促進する目的があります。
グーグルは5月19日に最新のマルチモーダルAIモデルであるGemini Omniを発表しました。これはGeminiシリーズにおける大きな飛躍です。このモデルはテキスト、音声、画像、動画など多様な情報を同時に処理でき、よりスムーズで自然なクロスモーダルなインタラクション体験を実現し、ユーザーとAIとのインタラクション効率を向上させることを目的としています。
快手科技は、自社開発の動画生成大規模モデル「可灵AI」の資産再編計画を取締役会で評価中であり、外部資金調達の可能性も検討している。可灵は2024年6月にリリース予定で、2025年1月31日には画像、動画、Omni版を含む可灵3.0シリーズを発表。技術向上により、より豊富なコンテンツを提供する。....
テキスト、画像、自然言語による対話編集をサポートするスマートなAIビデオ生成および制作プラットフォーム。
Gemini Omni FlashはAIビデオを瞬時に生成でき、テキスト、画像、参考素材からビデオへの変換をサポートします。
OmniEditのビデオエディターでAIビデオワークフローをプレビューします。全機能が間もなく登場します。
参考ドライブのAIビデオ生成ツールで、参考素材のスタイル、動作、カメラの向きを引き継ぐことができます。
Alibaba
-
入力トークン/百万
出力トークン/百万
コンテキスト長
$8
$240
52
$3.9
$15.2
64
$15.8
$12.7
$6
$6.4
32
$1.5
$1.6
Genie-AI-Lab
Omni L1B3RT4S GENIEは、Qwen2.5 - 3B Instructアーキテクチャをベースに微調整されたAIアシスタントです。1,103個の精霊キャラクターのカスタムサンプルを用いて訓練され、独特な音声と忠誠度モードを備え、ユーザーに独特な対話体験を提供することができます。
OmniDimen
OmniDimen-V1.1-4B-Emotionは、Qwen3-4B-Instruct-2507をファインチューニングした感情識別と感情感知テキスト生成モデルで、テキストの感情傾向を正確に識別し、それに合った感情豊かな内容を生成し、ユーザーにより感情的な共感を伴う対話体験を提供します。
OmniDimen-4B-EmotionはQwen3-4B-Instruct-2507をベースに微調整された、情感認識と情感知覚テキスト生成モデルで、特に情感対話と情感知覚能力を持つ会話生成に使用されます。
OmniDimen-4B-Emotionは、Qwen3-4B-Instruct-2507をベースに微調整された感情識別と感情知覚テキスト生成モデルで、感情関連のタスクに特化しており、より感情的な対話性のあるテキスト体験を提供します。
nvidia
OmniVinciはNVIDIAが開発した全モーダリティ理解大規模言語モデルで、視覚、テキスト、オーディオ処理および音声インタラクション機能を備え、マルチモーダル推論と理解をサポートします。
NexaAI
OmniNeuralは、世界初のニューラル処理ユニット(NPU)用に特別に設計された全マルチモーダルモデルで、テキスト、画像、音声をネイティブに理解し、PC、モバイルデバイス、自動車、IoT、ロボットなどの様々なデバイスで動作します。
DFloat11
OmniGen2/OmniGen2のDFloat11損失なし圧縮バージョンで、モデルサイズが32%縮小され、ビットレベルでの同一出力を維持し、効率的なGPU推論をサポートします。
OmniAvatar
OmniAvatarは、音声入力に基づいて適応型身体アニメーション付きのアバタービデオを生成できる先進的なモデルで、ビデオ生成分野に効率的で質の高い解決策を提供します。
OmniGen2
OmniGen2は強力で効率的な統一マルチモーダルモデルで、3Bのビジュアル言語モデルと4Bの拡散モデルで構成され、ビジュアル理解、テキストから画像への生成、指令による画像編集、コンテキスト生成をサポートします。
Tevatron
Qwen2.5-Omni-7Bをベースに構築されたマルチモーダル埋め込みモデルで、多言語テキスト、画像、音声、動画の統一された埋め込み表現をサポート
microsoft
OmniParserは汎用スクリーン解析ツールで、UIスクリーンショットを解釈/構造化フォーマットに変換し、LLMベースのUIエージェントの性能を向上させます。
BAAI
OmniGenはマルチモーダルプロンプトをサポートする統一画像生成モデルで、シンプルで柔軟、使いやすい設計理念を持っています。
gryan
OmniGen-v1を最適化した4bit-NF4 float16量子化モデルで、bfloat16形式をサポートしていないGPUユーザー向けに設計されています
OmniAudioは、世界で最速かつ最も効率的なデバイス端末にデプロイ可能なオーディオ言語モデルで、26億のパラメータを持ち、テキストとオーディオ入力を処理できます。
NexaAIDev
世界最速かつ最も効率的なエッジデバイス向け音声言語モデル、2.6Bパラメータのマルチモーダルモデルで、テキストと音声入力を同時に処理可能。
OmniGen-v1の8ビット量子化バージョンで、テキストから画像および画像から画像のタスクに適しており、マルチモーダル入力をサポートします。
silveroxides
OmniGenは統一されたマルチモーダル画像生成モデルで、多様な命令に基づいて様々な画像を生成でき、追加のプラグインや前処理ステップが不要です。
OmniGenは統一されたマルチモーダル画像生成モデルで、多様な命令に基づいて様々な画像を生成でき、追加のプラグインや煩雑な前処理を必要としません。
Shitao
OmniGenは統一された画像生成モデルで、様々な画像生成タスクをサポートします。
OmniParserは汎用画面解析ツールで、ユーザーインターフェースのスクリーンショットを構造化された形式に解釈/変換し、既存の大規模言語モデル(LLM)ベースのUIエージェントを改善します。
OMNI-Salesプロジェクトの販売管理制御プロトコルサーバー
OmniMindはオープンソースのPythonライブラリで、Model Context Protocol(MCP)の統合を簡素化し、AIエージェント、ワークフロー、自動化開発をサポートします。即挿即用機能を提供し、複数のツールが組み込まれており、Google Geminiに基づいたスマートな応答を提供し、開発者や初心者がAIアプリケーションを迅速に構築するのに適しています。
MCPモデルを通じてMicrosoft Accessデータベースを探索およびクエリするためのツール
OmniMCPはセマンティックルーティングツールで、単一のインターフェースを通じて複数のMCPサーバーを統一的に管理し、従来のMCPツール定義によるコンテキストの膨張問題を解決し、必要に応じてツールを動的にロードし、トークン消費を大幅に削減します。
OmniFocus MCPサーバーは、AIアシスタントとOmniFocusタスク管理システムをつなぐ架け橋であり、自然言語での対話によりタスクの表示、作成、編集、削除を実現します。
Omni-NLIは、自ホスト型の複数インターフェース(RESTとMCP)を備えたサーバーで、自然言語推論タスクに特化しており、テキスト間の支持、矛盾、中立関係を検証することができ、AIの幻覚を軽減し、アプリケーションの信頼性を向上させます。
これはOmniParserに基づくMCPサーバーで、画面内容を分析し、GUIインターフェイスを自動操作することができ、主にWindowsシステムで動作します。
OmniLLMはMCPサーバーで、Claudeと他の大規模言語モデル(ChatGPT、Azure OpenAI、Google Geminiなど)の間のブリッジとして機能し、統一されたAIアクセスインターフェイスを提供します。
Omni-LPRは、自ホスト型の複数インターフェース(RESTとMCP)を持つサーバーで、自動ナンバープレート認識(ALPR)機能を提供し、独立したマイクロサービスまたはAIエージェントのツールボックスとして使用できます。
これはOmniParserに基づくMCPサーバープロジェクトで、画面内容を自動分析し、GUIインターフェイスを操作できます。主にWindowsシステムをサポートしています。
OmniMCPは、Model Context Protocol (MCP)とOmniParserを通じてAIモデルに豊富なUIコンテキストと相互作用能力を提供するプロジェクトで、視覚認識、LLM計画、アクション実行などの機能をサポートし、ユーザーインターフェイスの深い理解と正確な相互作用を実現します。
OmniMCPは、Model Context Protocol (MCP) とOmniParserを通じてAIモデルに豊富なUIコンテキストとインタラクション機能を提供するツールであり、視覚分析、構造化プランニング、精密なインタラクション実行によるユーザーインターフェイスの深い理解に焦点を当てています。
OmniFocus MCPエンハンス版はAI駆動の生産性ツールで、ネイティブのカスタムビューアクセス、階層型タスク管理、スマートなフィルタリングなどの機能を提供し、Claude AIと深度統合してスマートなワークフローを実現します。
Swarmonomiconプロジェクト用のFastMCPベースのタスク管理サーバーで、タスクを受信しMongoDBに保存し、ワーカーノードで処理できます。
Opera Omnia MCPサーバーは豊富なJSONデータセットへのアクセスを提供し、ランダム選択、フィルタリング、コンテンツ生成をサポートします。
Claude Desktop向けに設計されたOmniFocus統合サービスで、MCPプロトコルを通じてタスク管理機能を提供し、タスク、プロジェクトの取得とスマートなフィルタリングをサポートします。
Omni ServerはMCPフレームワークに基づくPythonサーバーで、開発者がMCPアプリケーションを学習し実装するのを支援し、モジュール化構造とClaude Desktop統合サポートを提供します。
omni AI MCPサーバー開発用のクロスプラットフォームデスクトップアプリケーションで、AndroidとiOS開発をサポートします。
Recall Data Omnifeedsは、多プラットフォームのデータアクセスを提供するMCPサーバーで、Twitter、Substack、CoinGeckoのデータインターフェースを統合し、AIモデルに統一的なデータ分析とインタラクション能力を提供します。
NiagaBotはQwen3 - Omni AIに基づくスマートなWhatsAppビジネス自動化ロボットで、マルチモーダルメッセージ処理、グループ管理、大量ブロードキャスト、データ分析などの機能をサポートしています。