Best 图像分析 AI Tools & Models - Premium 图像分析 News

AI News

NotebookLM升级支持图像导入板书秒变可检索知识库

谷歌推出NotebookLM图像识别功能，支持上传板书、教材或表格图片，自动完成文字识别与语义分析，用户可直接用自然语言检索图片内容。该功能全平台免费，即将增加本地处理选项保护隐私。系统采用多模态技术，能区分手写与印刷体、解析表格结构，并与现有笔记智能关联。

16.4k 54 minutes ago

新一代多模态 AI DeepEyesV2：智能工具助力超越更大模型

中国推出多模态AI模型DeepEyesV2，能分析图像、执行代码和网络搜索。它通过智能利用外部工具，而非依赖训练数据，性能超越大型模型。早期实验显示，仅靠强化学习无法稳定完成多模态任务，模型曾尝试编写Python代码分析图像但效果不佳。

9k yesterday

马斯克：Grok将能够每天解读1亿条X帖子

马斯克宣布，下月起Grok将能每日处理约1亿条X平台帖子，涵盖文本、图像和视频内容。该系统基于先进算法，通过分析内容内在质量进行智能推荐，不受用户规模影响，旨在提升信息分发效率。

10.9k 12-11

谷歌地球整合 Gemini，大模型加持可识别风暴与干旱风险

谷歌为Earth平台集成Gemini大模型，用户可通过自然语言对话实现地理推理，如识别风暴威胁、分析干旱风险。该功能基于地理空间推理模型，整合天气预报、卫星图像和人口数据等AI能力，提升交互效率。

10.2k 4 days ago

AI Products

CoreViz

AI技术解锁图像和视频的力量，无需编码，支持全球100多个组织使用。

AI搜索

4.4k

Fixiol

Fixiol是一款利用先进AI技术分析屋顶图像、检测损坏、估算维修成本并生成专业报告的全能平台。

AI设计工具

6.3k

InternVL3

InternVL3开源：7种尺寸覆盖文、图、视频处理，多模态能力扩展至工业图像分析

AI模型

14.2k

OpenGVLab InternVL

一款AI视觉语言模型，提供图像分析和描述服务。

图片生成

8.8k

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen-image-plus

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

wan2.5-i2i-preview

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

qwen-image-edit

Alibaba

Input tokens/M

Output tokens/M

Context Length

qwen3-livetranslate-flaltimeash-re-2025-09-22

Alibaba

Input tokens/M

$240

Output tokens/M

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

MCP

Awslabs Cost Analysis Mcp Server

AWS MCP Servers是一套基于Model Context Protocol的专用服务器，提供多种AWS相关功能，包括文档检索、知识库查询、CDK最佳实践、成本分析、图像生成等，旨在通过标准化协议增强AI应用与AWS服务的集成。

python

15.1k

5.0points

Image Description Mcp_server

一个基于xAI Grok API的MCP服务器，提供AI图像分析功能，支持URL和本地文件的图像描述、元数据提取和OCR文字识别

python

5.4k

2.5points

Opencv Mcp Server

OpenCV MCP Server是一个基于Python的计算机视觉服务，通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具，包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。

python

11.1k

2.5points

Mcp Vision Relay

MCP Vision Relay 是一个 MCP 服务器，通过封装本地安装的 Gemini 和 Qwen 命令行工具，为 Claude、Codex 等仅支持文本的 MCP 客户端提供图像分析能力，使其能够处理本地路径、URL 或 base64 编码的图片。

typescript

4.6k

2.5points

Vulcan File Ops

Vulcan File Ops是一个基于Model Context Protocol（MCP）的高性能文件操作服务器，可将桌面AI助手（如Claude Desktop、ChatGPT Desktop等）转变为强大的开发伙伴。它提供安全的文件读写、批量操作、文档处理、图像分析和Shell命令执行功能，具有企业级安全控制、动态目录注册和智能工具过滤特性，让用户完全控制本地文件系统访问。

typescript

4.8k

2.5points