Best 多模态预训练 AI Tools & Models - Premium 多模态预训练 News

AI News

马斯克：Grok 5 有 10% 概率触及 AGI，6 万亿参数+实时视频是核心

埃隆・马斯克在巴伦投资大会上首次量化预测AGI时间表：明年Q1发布的Grok 5有约10%概率实现通用人工智能。技术亮点包括：6万亿参数MoE架构（稀疏度70%）、多模态统一编码（文本/图像/音频/实时视频流）、帧级延迟＜120ms。训练数据来自X平台每日5亿帖文与2亿小时视频流，支持实时回灌训练。

14.8k 1 days ago

阿里巴巴重磅发布全模态大模型 Qwen3-Omni

阿里巴巴发布通义全模态预训练模型Qwen3-Omni系列，支持音频、视频、文本等多模态信息处理，具备类人感知能力。该模型在36项音视频基准测试中，22项达SOTA水平，32项为开源模型最优，尤其在语音识别领域表现突出，标志着AI技术重大突破，拓展了未来应用潜力。

10.7k 3 hours ago

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

阿里云发布全球首个原生端到端全模态AI模型Qwen3-Omni并开源。该模型支持文本、图像、音频、视频多模态输入，实现实时流式输出，响应迅速。通过文本预训练与多模态混合训练，Qwen3-Omni具备强大跨模态能力，在多个领域表现先进。

16.5k 1 days ago

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

刷新科技前沿！InternLM推出8B参数的轻量级多模态推理模型

InternLM团队发布开源轻量级多模态推理模型Intern-S1-mini。该模型仅8B参数，融合Qwen3-8B语言模型与0.3B视觉编码器InternViT，具备强大处理能力。经过超5万亿token数据预训练，其中2.5万亿来自化学、物理等科学领域，使其在科学任务中表现优异。

12k yesterday

AI Products

olmo-mix-1124

大规模多模态预训练数据集

AI模型

8.5k

GLM-4V-9B

开源多模态预训练模型，具备中英双语对话能力。

AI模型

11.9k

CogVLM2

第二代多模态预训练对话模型

AI模型

10.7k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

马斯克：Grok 5 有 10% 概率触及 AGI，6 万亿参数+实时视频是核心

阿里巴巴重磅发布全模态大模型 Qwen3-Omni

​阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理

刷新科技前沿！InternLM推出8B参数的轻量级多模态推理模型

AI Products

olmo-mix-1124

GLM-4V-9B

CogVLM2

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen-image-plus

qwen3-coder-plus

qwen3-vl-plus

qwen3-max

wan2.5-i2i-preview

qwen3-vl-235b-a22b-thinking

Qianfan-Lightning

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Emu3.5

Ming UniVision 16B A3B

Intern S1 FP8

ERNIE 4.5 300B A47B PT GGUF

ERNIE 4.5 300B A47B PT GGUF

Ultravox V0_6 Llama 3_1 8b

NuExtract 2.0 2B

Patho R1 7B

Ultravox V0_6 Llama 3_3 70b

FuseLIP B CC12M MM

InternVL3 78B Instruct GGUF

InternVL3 2B Instruct GGUF

SkyReels V2 I2V 14B 720P

InternVL3 1B Pretrained

InternVL3 2B Instruct

InternVL3 1B Instruct

Git RSCLIP

ConceptCLIP

ViTucano 2b8 V1

ViTucano 1b5 V1

阿里云推出全球首个全模态 AI 模型 Qwen3-Omni，实现文本、图像、音频与视频的统一处理