百度發佈文心大模型衍生模型PaddleOCR-VL-1.6,在OmniDocBench v1.6評測中以96.33%準確率超越Gemini-3-Pro、GPT-5.2等主流模型,刷新SOTA,綜合性能全球第一。該模型標誌着多模態大模型在複雜文檔理解與真實場景解析上的重大突破,支持超100種語言識別,用戶覆蓋廣泛。
小米宣佈將於2026年6月30日下線舊版MiMo-V2-Pro/Omni模型,升級至MiMo V2.5系列,其中mimo-v2-pro遷移至v2.5-pro,mimo-v2-omni升級爲v2.5新模型。新版本已全面上線,旨在提供更強推理能力和更高性價比,推動開發者遷移。
谷歌於5月19日發佈最新多模態AI模型Gemini Omni,這是Gemini家族的重大突破。該模型能同時處理文本、音頻、圖像和視頻等多種信息形式,實現更流暢自然的跨模態交互體驗,旨在提升用戶與AI的交互效率。
快手科技宣佈董事會正評估可靈AI資產重組方案,或引入外部融資。可靈是快手自研的視頻生成大模型,預計2024年6月上線。今年1月31日發佈的可靈3.0系列,包括圖片、視頻及Omni版本,經技術升級後,提供更豐富內容。
一個多模態 AI 視頻生成器,生成同步原生音頻的 4K 電影片段。
谷歌原生多模態AI視頻生成與編輯工具,支持文本、圖像和音頻一鍵同步創作。
一款支持文本、圖像和自然語言對話編輯的智能 AI 視頻生成與創作平臺。
一款免費的 AI 視頻生成器,支持將文本、圖片或視頻剪輯轉化為電影級 4K 視頻。
Alibaba
$8
輸入tokens/百萬
$240
輸出tokens/百萬
52
上下文長度
-
$15.8
$12.7
64
$3.9
$15.2
$6
$6.4
32
$1.5
$1.6
Genie-AI-Lab
Omni L1B3RT4S GENIE 是一個基於Qwen2.5-3B Instruct架構微調的AI助手,採用1,103個精靈角色的定製示例進行訓練,具備獨特的語音和忠誠度模式,能夠為用戶提供別具一格的對話體驗。
OmniDimen
OmniDimen-V1.1-4B-Emotion是基於Qwen3-4B-Instruct-2507微調的情感識別和情感感知文本生成模型,專門用於精準識別文本情感傾向並生成相匹配的情感化內容,為用戶提供更具情感共鳴的交互體驗。
OmniDimen-4B-Emotion是基於Qwen3-4B-Instruct-2507微調的情感識別和情感感知文本生成模型,專門用於情感交互和具備情感感知能力的對話生成
OmniDimen-4B-Emotion是基於Qwen3-4B-Instruct-2507微調的情感識別和情感感知文本生成模型,專門用於情感相關任務,提供更具情感交互性的文本體驗。
nvidia
OmniVinci是NVIDIA開發的全模態理解大語言模型,具備視覺、文本、音頻處理和語音交互能力,支持多模態推理和理解。
NexaAI
OmniNeural是全球首個專門為神經處理單元(NPU)設計的全多模態模型,能夠原生理解文本、圖像和音頻,可在PC、移動設備、汽車、物聯網和機器人等多種設備上運行。
DFloat11
OmniGen2/OmniGen2的DFloat11無損壓縮版本,模型大小縮小32%,保持位級相同輸出,支持高效GPU推理。
OmniAvatar
OmniAvatar是一個能夠根據音頻輸入生成帶有自適應身體動畫的頭像視頻的先進模型,為視頻生成領域提供了高效且優質的解決方案。
OmniGen2
OmniGen2 是一個強大且高效的統一多模態模型,由 3B 視覺語言模型和 4B 擴散模型構成,支持視覺理解、文本到圖像生成、指令引導的圖像編輯和上下文生成。
Tevatron
基於Qwen2.5-Omni-7B構建的多模態嵌入模型,支持跨語言文本、圖像、音頻和視頻的統一嵌入表示
microsoft
OmniParser是一款通用屏幕解析工具,能夠將UI截圖解釋/轉換為結構化格式,以提升基於LLM的UI代理性能。
BAAI
OmniGen是一個支持多模態提示的統一圖像生成模型,設計理念是簡潔、靈活、易用。
gryan
基於OmniGen-v1優化的4bit-NF4 float16量化模型,專為GPU不支持bfloat16格式的用戶設計
OmniAudio是全球最快且最高效的適用於設備端部署的音頻語言模型,擁有26億參數,能夠處理文本和音頻輸入。
NexaAIDev
全球最快、最高效的端側部署音頻語言模型,2.6B參數的多模態模型,可同時處理文本和音頻輸入。
OmniGen-v1的8比特量化版本,適用於文生圖和圖生圖任務,支持多模態輸入。
silveroxides
OmniGen是一個統一的多模態圖像生成模型,能夠根據多樣化指令生成各類圖像,無需額外插件和預處理步驟。
OmniGen是一個統一的多模態圖像生成模型,能夠根據多樣化指令生成各類圖像,無需加載額外插件或進行繁瑣預處理。
Shitao
OmniGen是一個統一的圖像生成模型,支持多種圖像生成任務。
OmniParser是一款通用屏幕解析工具,能夠將用戶界面截圖解釋/轉換為結構化格式,以改進現有基於大語言模型(LLM)的UI代理。
這是一個基於OmniParser的MCP服務器,能夠分析屏幕內容並自動操作GUI界面,主要在Windows系統上運行。
這是一個基於OmniParser的MCP服務器項目,能夠自動分析屏幕內容並操作GUI界面,主要支持Windows系統。
OmniMind是一個開源的Python庫,旨在簡化Model Context Protocol(MCP)集成,支持AI代理、工作流和自動化開發。它提供即插即用功能,內置多種工具,並基於Google Gemini提供智能響應,適合開發者和初學者快速構建AI應用。
Omni-LPR 是一個可自託管的多接口(REST 和 MCP)服務器,提供自動車牌識別(ALPR)功能,可作為獨立的微服務或AI代理的工具箱使用。
Omni-NLI是一個可自託管的多接口(REST和MCP)服務器,專注於自然語言推理任務,用於驗證文本間的支持、矛盾或中立關係,可幫助減少AI幻覺並提升應用可靠性。
OmniMCP是一個通過Model Context Protocol (MCP)和OmniParser為AI模型提供豐富UI上下文和交互能力的項目,支持視覺感知、LLM規劃、動作執行等功能,實現用戶界面的深度理解和精準交互。
一個用於通過MCP模式探索和查詢Microsoft Access數據庫的工具
OmniMCP是一個通過Model Context Protocol (MCP)和OmniParser為AI模型提供豐富UI上下文和交互能力的工具,專注於通過視覺分析、結構化規劃和精確交互執行實現用戶界面的深度理解。
OmniMCP是一個語義路由工具,通過單一接口統一管理多個MCP服務器,解決傳統MCP工具定義導致的上下文膨脹問題,實現按需動態加載工具,顯著降低令牌消耗。
OmniLLM是一個MCP服務器,作為Claude與其他大型語言模型(如ChatGPT、Azure OpenAI和Google Gemini)之間的橋樑,提供統一的AI訪問接口。
一個基於FastMCP的待辦事項服務器,用於Swarmonomicon項目,接收並存儲待辦事項到MongoDB,供工作節點處理。
OmniFocus MCP增強版是一個AI驅動的生產力工具,提供原生自定義視圖訪問、層級任務管理、智能篩選等功能,深度集成Claude AI實現智能工作流。
OMNI-Sales項目的銷售管理控制協議服務器
OmniFocus MCP服務器是一個連接AI助手與OmniFocus任務管理系統的橋樑,通過自然語言交互實現任務的查看、創建、編輯和刪除。
omni AI MCP服務器開發的跨平臺桌面應用,支持Android和iOS開發
一個為Claude Desktop設計的OmniFocus集成服務,通過MCP協議提供任務管理功能,支持獲取任務、項目及智能過濾
LayerZero OFT MCP是一個基於TypeScript/Node.js的模型上下文協議服務器,用於創建、部署和跨鏈橋接Omnichain Fungible Tokens(OFTs)。它通過抽象化跨鏈交互的複雜性,提供了一個結構化的、上下文感知的層,便於與LLM代理、機器人或需要去中心化跨鏈功能的應用程序集成。
Recall Data Omnifeeds是一個提供多平臺數據訪問的MCP服務器,整合了Twitter、Substack和CoinGecko的數據接口,為AI模型提供統一的數據分析和交互能力。
Omni_Engineer是一個集成化軟件開發效率系統,通過FastAPI微服務架構和illegal-Agents平臺實現多功能協同,涵蓋代碼開發、數據庫管理、版本控制及團隊協作等核心功能。
Omni Server是一個基於MCP框架的Python服務器,幫助開發者學習和實現MCP應用,提供模塊化結構和Claude Desktop集成支持。