Best 视觉编码器 AI Tools & Models - Premium 视觉编码器 News

AI News

火山引擎发布豆包语音识别模型2.0提升多语种识别精度

火山引擎发布豆包语音识别模型2.0，显著提升推理能力，支持多语言和视觉信息识别。模型基于20亿参数音频编码器，优化复杂场景，提升专有名词、人名、地名及多音字的识别准确性。

15.4k 2 hours ago

商汤NEO开源:用1/10数据量媲美顶级多模态模型，终结"拼凑式"AI时代

商汤科技与南洋理工大学S-Lab联合发布开源多模态模型NEO，通过架构创新实现视觉语言深层统一。该模型仅需3.9亿图像文本数据（为同类模型1/10），即可达到顶尖视觉感知性能，无需海量数据或额外视觉编码器，在效率与通用性上取得突破。

10.2k 5 hours ago

腾讯发布 HunyuanOCR 开源模型，参数仅 1B 成就多项 SOTA 表现

腾讯发布1B参数开源模型HunyuanOCR，基于混元多模态架构，在OCR应用中达到SOTA水平。模型采用端到端设计，一次推理即可获得最优结果，包含原生分辨率视频编码器、自适应视觉适配和轻量化混元语言三大核心组件。

12.2k 10 hours ago

腾讯发布 HunyuanOCR 开源模型，参数仅 1B 成就多项 SOTA 表现

腾讯混元开源 HunyuanOCR 模型:1B 参数斩获多项 SOTA，多场景赋能 OCR 应用

腾讯混元开源10亿参数OCR模型HunyuanOCR，采用端到端设计，集成视频编码器、视觉适配器和轻量化语言模型，在多项榜单获SOTA成绩，以体积小、部署便捷为核心优势，提供高效OCR解决方案。

12.4k yesterday

腾讯混元开源 HunyuanOCR 模型:1B 参数斩获多项 SOTA，多场景赋能 OCR 应用

AI Products

SigLIP2

SigLIP2 是谷歌推出的一种多语言视觉语言编码器，用于零样本图像分类。

AI模型

12.5k

Florence-VL

视觉语言模型增强工具，结合生成式视觉编码器和深度广度融合技术。

AI模型

9.3k

Pixtral-12B-2409

多模态12B参数模型，结合视觉编码器处理图像和文本。

AI图像生成

EVE

编码器自由的视觉-语言模型，高效且数据驱动。

AI模型

9.4k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

wan2.5-t2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-t2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

Doubao-Seed-1.6

Bytedance

$0.8

Input tokens/M

Output tokens/M

256

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

火山引擎发布豆包语音识别模型2.0提升多语种识别精度

商汤NEO开源:用1/10数据量媲美顶级多模态模型，终结"拼凑式"AI时代

腾讯发布 HunyuanOCR 开源模型，参数仅 1B 成就多项 SOTA 表现

腾讯混元开源 HunyuanOCR 模型:1B 参数斩获多项 SOTA，多场景赋能 OCR 应用

AI Products

SigLIP2

Florence-VL

Pixtral-12B-2409

EVE

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Doubao-Seed-Translation

wan2.5-t2i-preview

wan2.5-t2v-preview

wan2.5-i2v-preview

qwen3-omni-flash-realtime

Doubao-Seed-1.6

NewBie Image Exp0.1

Sarashina2.2 Vision 3b

Colmodernvbert

Vit_base_patch16_dinov3.lvd1689m

FastVLM 7B

FastVLM 1.5B

FastVLM 0.5B

MiMo VL 7B RL 2508

MiMo VL 7B SFT 2508

Rope_i_vit_l14_pn_aps_c1_pe Core

Deepseek Vl 7b Chat

Deepseek Vl 1.3b Chat

Tooth Agenesis Siglip2

Devstral Small Vision 2505 GGUF

Open Deepfake Detection

Openvision Vit Base Patch16 224

Openvision Vit Huge Patch14 224

Openvision Vit Huge Patch14 84

Openvision Vit So400m Patch14 384

Openvision Vit So400m Patch14 224