Best 多模态处理 AI Tools & Models - Premium 多模态处理 News

AI News

报道称DeepSeek V4 与腾讯姚顺雨混元模型 4 月同步发布

DeepSeek V4与姚顺雨新混元模型将于2026年4月发布。DeepSeek V4由梁文锋主导，是多模态大模型，在代码能力和长期记忆方面有显著提升，专注于视觉内容处理和AI搜索能力，并探索“条件记忆”机制。

19.3k 3 hours ago

万亿参数大杀器！DeepSeek V4 细节曝光：100 万上下文 + 原生多模态

国产AI模型DeepSeek V4预览版已启动闭门内测，代号“海狮轻量版”。新模型相比V3实现跨代升级，原生支持多模态处理，并将上下文窗口大幅提升至100万token，可一次性处理超长文本。

56.3k 15 hours ago

豆包大模型 2.0 正式上线推理成本降一个数量级 API 同步开放

火山引擎推出豆包大模型2.0系列，面向企业和开发者提供API服务，个人用户可通过指定平台体验。该版本针对生产环境优化，具备高效推理、多模态理解与复杂指令执行能力，能更好处理真实世界任务，推理成本显著降低，日均使用量已大幅增长。

21.5k 3 hours ago

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

蚂蚁集团开源全模态大模型Ming-Flash-Omni2.0，在视觉语言理解、语音生成、图像处理等多项基准测试中表现优异，部分指标超越Gemini2.5Pro。该模型首创全场景音频统一生成能力，支持在同一条音轨中生成语音、音效和音乐，用户通过自然语言指令即可调整音色、语速等参数。

17.5k 9 hours ago

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

AI Products

LTX-2

LTX-2 是代多模态 AI 视频生成模型。

视频生成

10.5k

David One

David是结合顶级AI供应商和生产力工具的伴侣，提升工作效率。

个人助理

8.6k

贝拉 (Bella)

一个数字伴侣，旨在通过情感理解与用户建立联系。

情感陪伴

16k

HunyuanCustom

多模态驱动的定制视频生成架构。

视频生成

13.4k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

MCP

Context_engineering_mcp

Context Engineering MCP平台是一个AI上下文管理与优化平台，通过系统化的方法设计、管理和优化AI模型的输入信息，实现提示工程的工程化。平台提供智能分析引擎、优化算法、模板管理等功能，显著提升AI响应质量、降低API成本，并支持多模态内容处理。

python

8.2k

2.5points

Ragstack Lambda

RAGStack-Lambda是一个基于AWS Lambda的无服务器AI文档与媒体处理平台，支持上传文档、图片、视频和音频，通过OCR、转录和向量化技术构建知识库，并提供带来源追溯的AI聊天功能。采用按需付费的零闲置成本架构。

typescript

2.5points

Whatsapp Bot Mcp

NiagaBot是基于Qwen3-Omni AI的智能WhatsApp商业自动化机器人，支持多模态消息处理、群组管理、批量广播和数据分析等功能

javascript

2.0points

Toolchat

ToolChat是一个通过MCP服务器与大型语言模型(LLM)交互的工具，支持配置多工具服务器并调用特定功能，还能处理多模态输入如图片和文档。

python

2.0points

Rag Anything Mcp

RAG Anything MCP Server是一个提供全面检索增强生成(RAG)能力的模型上下文协议服务器，支持多模态文档处理与查询，具备端到端文档解析、批量处理、高级查询及持久化存储等功能。

python

10.2k

2.0points

Multimodel MCP

GLM-4.5V多模态服务器，提供图像处理、视觉查询和文件处理功能

typescript

10.2k

2.0points

Geminimcpserver

GeminiMcpServer是一个连接LM Studio与Google Gemini API的MCP服务器，支持图像生成和多模态任务处理。

javascript

13.6k

2.0points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

报道称DeepSeek V4 与腾讯姚顺雨混元模型 4 月同步发布

万亿参数大杀器！DeepSeek V4 细节曝光：100 万上下文 + 原生多模态

豆包大模型 2.0 正式上线 推理成本降一个数量级 API 同步开放

蚂蚁集团开源全模态大模型Ming-flash-omni 2.0：多模态理解、图像编辑与语音生成全面提升

AI Products

LTX-2

David One

贝拉 (Bella)

HunyuanCustom

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

qwen3-max

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

Qianfan-Lightning

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Qwen3 VL 4B Instruct 4bit GPTQ

Sarashina2.2 Vision 3b

HunyuanOCR

Vae Lyra

SenseNova SI InternVL3 8B

Huihui Mistral Small 3.2 24B Instruct 2506 Abliterated V2 GGUF

Huihui Qwen3 VL 4B Instruct Abliterated GGUF

JanusCoder 14B GGUF

JanusCoder 8B GGUF

Qwen3 VL 8B Thinking GGUF

Qwen3 VL 4B Instruct GGUF

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 4B Instruct GGUF

Gemma 3 27b It Qat Mlx Mxfp4

Everos

Dots.ocr Base Fix

Qwen3 VL 30B A3B Instruct GGUF

NVIDIA Nemotron Nano 12B V2 VL NVFP4 QAD

NVIDIA Nemotron Nano 12B V2 VL FP8

LFM2 VL 3B

MCP

Context_engineering_mcp

Ragstack Lambda

Whatsapp Bot Mcp

Toolchat

Rag Anything Mcp

Multimodel MCP

Geminimcpserver

豆包大模型 2.0 正式上线推理成本降一个数量级 API 同步开放