Best 视觉感知 AI Tools & Models - Premium 视觉感知 News

AI News

谢赛宁团队发布首个多人视频世界模型 Solaris，采用昆仑万维 Matrix-Game2.0底座

近日，谢赛宁团队发布全球首个多人视频世界模型Solaris。该模型基于昆仑天工开源的Matrix-Game2.0技术，在《我的世界》中验证了多玩家协同感知能力。通过引入多人自注意力层，Solaris实现了玩家间高效信息交换，有效提升了建筑一致性与视觉对齐等复杂交互表现。

6k 1 hours ago

微软推出小型多模态 AI 模型 Phi-4：思考与感知的完美结合！

微软发布开源AI模型Phi-4-Reasoning-Vision-15B，具备高分辨率视觉感知和深度推理能力，是首个同时实现“看得清楚”和“想得深入”的小语言模型，为开发者开辟新的智能应用场景。

9.5k 11 hours ago

优必选开源 Thinker 大模型，赋能工业人形机器人新未来

优必选推出开源具身智能大模型Thinker，旨在提升工业人形机器人的空间理解和视觉感知能力，解决现有模型精度低、参数多、实时性差等问题。官方指出，当前机器人大模型面临数据质量参差不齐的挑战。

11.4k yesterday

AI日报：Kimi K2.5上线；阿里发布推理模型Qwen3-Max-Thinking；Claude 深度集成 Slack 等办公神器

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、KimiK2.5悄然上线视觉与工具调用双升级KimiK2.5的发布标志着MoonshotAI在AI领域的持续发力，其视觉与工具调用功能的升级显著提升了模型的实用性。其核心数据资产将助力社区解决复杂场景的空间感知问题。

29.1k 1 hours ago

AI日报：Kimi K2.5上线；阿里发布推理模型Qwen3-Max-Thinking；Claude 深度集成 Slack 等办公神器

AI Products

NanoBanana Pro

Nano Banana Pro是强大的上下文感知AI图像编辑器，用简单文本提示创作惊艳视觉效果。

图片编辑

7.5k

UI-TARS-7B-SFT

下一代原生GUI代理模型，能够无缝与图形用户界面交互。

自动化工作流

12.5k

InternVL2_5-78B

先进多模态大型语言模型系列

AI模型

9.6k

SAMURAI

零样本视觉跟踪模型，具有运动感知记忆。

AI模型

12.6k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

wan2.5-t2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-t2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

wan2.5-i2v-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

Doubao-Seed-1.6

Bytedance

$0.8

Input tokens/M

Output tokens/M

256

Context Length

MCP

Unsplash Smart Mcp Server

Unsplash智能MCP服务器是为AI代理设计的专业图库集成方案，提供智能搜索、自动归因和项目感知的图片管理功能，简化开发者的视觉内容获取流程。

javascript

9.9k

2.5points

OmniMCP

OmniMCP是一个通过Model Context Protocol (MCP)和OmniParser为AI模型提供丰富UI上下文和交互能力的项目，支持视觉感知、LLM规划、动作执行等功能，实现用户界面的深度理解和精准交互。

python

6.8k

2.5points

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

谢赛宁团队发布首个多人视频世界模型 Solaris，采用昆仑万维 Matrix-Game2.0底座

微软推出小型多模态 AI 模型 Phi-4：思考与感知的完美结合！

优必选开源 Thinker 大模型，赋能工业人形机器人新未来

AI日报：Kimi K2.5上线；阿里发布推理模型Qwen3-Max-Thinking；Claude 深度集成 Slack 等办公神器

AI Products

NanoBanana Pro

UI-TARS-7B-SFT

InternVL2_5-78B

SAMURAI

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen-image-edit

qwen3-livetranslate-flaltimeash-re-2025-09-22

Doubao-Seed-Translation

wan2.5-t2i-preview

wan2.5-t2v-preview

wan2.5-i2v-preview

qwen3-omni-flash-realtime

Doubao-Seed-1.6

CodeV GGUF

Jan V2 VL Low GGUF

Jan V2 VL F32 AIO GGUF

Qwen3 VL 12B Thinking Brainstorm20x NEO MAX GGUF

Qwen3 VL 4B Instruct

Qwen3 VL 30B A3B Instruct 1M GGUF

Qwen3 VL 32B Thinking 1M GGUF

Qwen3 VL 8B Thinking 1M GGUF

Qwen3 VL 32B Instruct 1M GGUF

Qwen3 VL 8B Instruct 1M GGUF

Qwen3 VL 4B Thinking 1M GGUF

Qwen3 VL 4B Instruct 1M GGUF

Qwen3 VL 2B Instruct 1M GGUF

Qwen3 VL 2B Thinking 1M GGUF

Qwen3 VL 30B A3B Thinking GGUF

Qwen3 VL 235B A22B Instruct GGUF

Qwen3 VL 30B A3B Instruct GGUF

Qwen3 VL 2B Thinking GGUF

Qwen3 VL 8B Thinking GGUF

Qwen3 VL 32B Thinking GGUF

MCP

Unsplash Smart Mcp Server

OmniMCP