阿里巴巴旗下1688推出跨境电商AI工具“遨虾”,通过“AI+供应链”技术为全球跨境创业者提供智能数字供应链服务。该工具整合图像识别、链接解析和自然语言交互功能,用户通过对话、上传图片或输入链接,即可实现从市场调研到工厂对接的全流程自动化,覆盖选品决策和工厂寻源等环节。
谷歌推出NotebookLM图像识别功能,支持上传板书、教材或表格图片,自动完成文字识别与语义分析,用户可直接用自然语言检索图片内容。该功能全平台免费,即将增加本地处理选项保护隐私。系统采用多模态技术,能区分手写与印刷体、解析表格结构,并与现有笔记智能关联。
腾讯与广州医学科研机构联合研发的DeepGEM病理大模型,仅用常规病理切片图像即可在1分钟内预测肺癌基因突变,精准度达78%-99%。该技术突破传统依赖基因测序的模式,通过AI分析图像识别潜在突变,为精准医疗提供高效新方案。
阿里巴巴发布两款30亿参数多模态模型Qwen3-VL-30B-A3B,性能对标GPT-5-Mini等顶尖模型,在数学、图像识别、视频处理等领域表现优异,展现强大竞争力。
SAM 3D:AI驱动,秒速将2D图像转化为专业级3D模型
强大的 AI 生成内容检测工具,适用于文本、图像、视频和音频。
xMode是一个AI图像训练平台,帮助用户训练和生成AI图像。
由 Google 训练的 AI 模型,用于对野生动物相机陷阱图像中的物种进行分类。
Alibaba
$1
Input tokens/M
$10
Output tokens/M
256
Context Length
Bytedance
$1.5
$4.5
128
$3
$9
32
strangervisionhf
这是一个修复后的图像文本转文本模型,解决了原模型在最新Transformers版本中推理失败的问题。该模型专门用于图像识别和文本生成任务,支持多模态输入处理。
prithivMLmods
基于google/siglip2-base-patch16-224的二分类图像识别模型,专门用于检测人员是否佩戴口罩,在公共卫生监测、门禁系统和工作场所合规执行等场景中具有重要应用价值。
nirusanan
基于Florence-2-base-ft微调的肺癌检测模型,通过肺部图像识别肺癌类型
Muqtadar08
这是一个基于Vision Transformer架构的皮肤类型分类模型,可通过面部图像识别干性、中性和油性三种皮肤类型。
wesleyacheng
使用谷歌视觉Transformer架构微调的犬种分类模型,支持120种犬类的图像识别
agomberto
针对法语手写文本的TrOCR基础模型,采用两阶段微调策略训练,适用于单行文本图像识别
thean
该模型是基于Swin Transformer V2架构在THFOOD-50泰国食物数据集上微调的视觉分类模型,专门用于泰国食物的图像识别。
Ajibola
PaViT是基于Pathway Vision Transformer的图像识别模型,灵感来源于谷歌的PaLM,专注于小样本学习技术在图像识别任务中的应用。
Kaludi
升级版食品分类图像识别模型,能够识别12种不同类别的食品
jungjongho
基于Google的ViT基础模型微调的视觉分类模型,适用于特定领域的图像识别任务
microsoft
TrOCR是基于Transformer的光学字符识别模型,专为单行文本图像识别设计,在多个标准数据集上进行了微调。
TrOCR是基于Transformer的光学字符识别模型,专为单行文本图像识别设计,采用编码器-解码器架构
google
Vision Transformer(ViT)是一种基于Transformer架构的图像分类模型,通过在ImageNet-21k和ImageNet数据集上进行预训练和微调,实现了高效的图像识别能力。
基于Florence-2的MCP图像处理服务
这是一个基于CLIP的时尚推荐系统,通过YOLO检测用户上传的服装图片,利用CLIP编码后推荐相似商品。项目已完成FastAPI服务器搭建、数据库连接和基础前端UI,下一步将优化CLIP的标签准确性和系统集成。
Deep Research是一个基于代理的工具,提供网页搜索和高级研究功能,支持PDF分析、图像描述和YouTube转录提取,可作为MCP服务器运行。
一个提供图像识别功能的MCP服务器,支持Anthropic和OpenAI的视觉API,具备图像描述、多格式支持、可配置主备服务商及OCR文本提取功能。
Grok AI MCP Server是一个基于Node.js的服务器,集成了xAI Grok API,为Solana区块链提供强大的AI驱动分析工具。它支持交易分析、地址分析、图像分析和通用查询,通过Model Context Protocol (MCP)提供标准化的接口。
BenBox是一个基于SSE的MCP协议的AI代理系统,包含移动端Angular应用,支持图像识别和云端部署。
一个基于Model Context Protocol的图像识别服务器,通过OpenAI兼容的视觉模型提供图像分析和描述功能,支持云端和本地模型集成。
基于AI的食物营养分析助手,通过图像识别食物并计算卡路里和蛋白质含量,支持营养知识问答和对话记忆功能
基于CLIP的时尚推荐系统,通过图像识别和编码实现相似商品推荐。