Best 视觉强化学习 AI Tools & Models - Premium 视觉强化学习 News

AI News

上海AI实验室发布多模态大模型书生·万象 InternVL3.5

上海AI实验室开源发布多模态大模型InternVL3.5，采用级联强化学习、动态视觉分辨率路由等创新技术，实现推理能力、部署效率和通用性能全面提升。该模型提供1B至241B全量级版本，刷新开源模型性能标杆，在多任务上达到领先水平。

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

小红书Hi Lab开源自研多模态大模型dots.vlm1，基于12亿参数NaViT视觉编码器和DeepSeek V3语言模型，性能接近Gemini2.5Pro等闭源模型。其创新点在于原生自研支持动态分辨率的NaViT编码器，通过双重监督提升泛化能力，在图表、公式等结构化图片处理上表现突出。团队构建高质量训练数据，在MMMU等多项评测中达到顶尖水平，尤其在图表推理、STEM数学等任务上表现出色。未来计划扩大数据规模并引入强化学习，持续优化模型性能。

13.5k yesterday

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

告别“静态”限制：全新3D视觉语言模型3D-R1如何平均提升10%推理能力？

研究团队发布3D-R1视觉语言模型，突破3D场景理解瓶颈。该模型通过高质量合成数据集Scene-30K、强化学习训练和动态视图选择三大创新，显著提升推理和泛化能力。实验显示其在3D场景基准测试中性能提升10%，为3D视觉语言模型研究奠定新基础。

12.3k 6 days ago

B站推出AI原声翻译功能：保留UP主声线音色，破解二次元文化出海难题

B站推出"AI原声翻译功能"，解决国际版与国内版合并后的内容互通问题。该功能支持英语翻译，具备两大核心能力：视觉上实现字幕替换、弹幕翻译和界面转换；音频上保留UP主原声特征，突破传统机器翻译的生硬感。技术团队采用大语言模型和对抗式强化学习，针对游戏、二次元等专业内容优化翻译。该功能是B站国际化战略的重要支撑，未来将扩展更多语言支持，推动中国原创内容的海外传播。

12.7k 3 days ago

AI Products

Kimi视觉思考模型k1

基于强化学习技术的视觉思考模型，理科测试行业领先

AI模型

15.8k

RL4VLM

通过强化学习微调大型视觉-语言模型作为决策代理

AI模型

9.1k

Models

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

Doubao-Seed-1.6

Bytedance

$0.8

Input tokens/M

Output tokens/M

256

Context Length

Doubao-Seed-1.6-flash

Bytedance

$0.15

Input tokens/M

$1.5

Output tokens/M

256

Context Length

qwen-vl-plus

Alibaba

$0.8

Input tokens/M

Output tokens/M

128

Context Length

Qianfan-VL-8B

Baidu

Input tokens/M

Output tokens/M

Context Length

Qianfan-VL-70B

Baidu

Input tokens/M

Output tokens/M

Context Length

Doubao-Seed-1.6-vision

Bytedance

$0.8

Input tokens/M

Output tokens/M

256

Context Length

qwen-vl-max

Alibaba

$1.6

Input tokens/M

Output tokens/M

128

Context Length

Hunyuan-Large-Vision

Tencent

Input tokens/M

Output tokens/M

Context Length

Doubao-Seed-1.6-thinking

Bytedance

$0.8

Input tokens/M

Output tokens/M

256

Context Length

DeepSeek-R1

Deepseek

Input tokens/M

$16

Output tokens/M

Context Length

Spark X1

Iflytek

Input tokens/M

Output tokens/M

Context Length

Qwen2.5-VL-32B-Instruct

Alibaba

Input tokens/M

Output tokens/M

Context Length

Doubao-1.5-thinking-vision-pro

Bytedance

Input tokens/M

Output tokens/M

128

Context Length

Gemma 3n E2B Instructed

Google

Input tokens/M

Output tokens/M

Context Length

Gemma 3n E2B

Google

Input tokens/M

Output tokens/M

Context Length

Hunyuan-T1-Vision

Tencent

Input tokens/M

Output tokens/M

Context Length

Hunyuan-TurboS-Vision

Tencent

Input tokens/M

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

上海AI实验室发布多模态大模型书生·万象 InternVL3.5

小红书发布开源多模态大模型 dots.vlm1，以 NaViT 视觉编码器领跑行业

告别“静态”限制：全新3D视觉语言模型3D-R1如何平均提升10%推理能力？

B站推出AI原声翻译功能：保留UP主声线音色，破解二次元文化出海难题

AI Products

Kimi视觉思考模型k1

RL4VLM

Models

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen3-omni-flash-realtime

Doubao-Seed-1.6

Doubao-Seed-1.6-flash

qwen-vl-plus

Qianfan-VL-8B

Qianfan-VL-70B

Doubao-Seed-1.6-vision

qwen-vl-max

Hunyuan-Large-Vision

Doubao-Seed-1.6-thinking

DeepSeek-R1

Spark X1

Qwen2.5-VL-32B-Instruct

Doubao-1.5-thinking-vision-pro

Gemma 3n E2B Instructed

Gemma 3n E2B

Hunyuan-T1-Vision

Hunyuan-TurboS-Vision

CodeV GGUF

Actio Ui 7b Rlvr GGUF

Emu3.5

InternVL3_5 38B HF

InternVL3_5 4B HF

InternVL3_5 2B HF

Keye VL 1_5 8B

MedVLThinker 7B RL_m23k

GLM 4.1V 9B Thinking GGUF

GLM 4.1V 9B Thinking

TreeVGR 7B CI

GLM 4.1V 9B Thinking

ViGoRL MCTS SFT 3b Spatial

ViGoRL 7b Spatial

ViGoRL Multiturn 3b Visual Search

DeepEyes 7B

PixelReasoner RL V1

TaskRouter 1.5B

VARGPT V1.1

VARGPT V1.1 Edit