苹果在ICLR2025提交的视觉推理论文宣称超越GPT-5,但遭研究员复现揭露严重问题:官方代码缺失图片输入模块,修复后准确率暴跌;抽查发现30%标注数据存在错误。作者团队在GitHub草率关闭问题反馈后,最终承认数据生成流程存在缺陷。该事件暴露论文评审机制漏洞,引发学界对AI研究可复现性的担忧。(140字)
阿里巴巴开源Z-Image图像模型,支持中英双语文字渲染,仅6B参数实现高效图像生成与编辑,视觉质量优秀。该模型由通义实验室开发,聚焦AI技术趋势,助力开发者洞悉创新应用。
阿里巴巴开源Z-Image图像生成模型,仅6B参数实现高效生成与编辑,视觉质量接近20B级别商业模型。该模型采用单流DiT架构,生成速度快、资源占用低,有望推动AI图像工具普及消费级应用。
谷歌AI笔记工具NotebookLM新增幻灯片生成器功能,可将笔记快速转换为演示幻灯片,帮助用户高效整理内容、生成草稿并优化视觉效果。该功能与信息图工具均基于Gemini3Pro图像生成模型运行,能处理详细提示信息。
专业AI图像与视频生成平台,用多种AI工具打造惊艳视觉效果。
一款免费在线 AI 图像编辑器,快速生成独特视觉效果。
Nano Banana 2是AI图像生成与编辑平台,用先进神经网络秒变文字为视觉作品。
Nano Banana助力创意,AI将文字转化为惊艳视觉,可试用AI艺术生成器。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
DevQuasar
这是一个基于Moonshot AI技术的量化版本模型,专注于视觉语言理解与生成任务,致力于降低知识获取门槛,让知识为每个人所用。
SadraCoding
SDXL-Deepfake-Detector 是一款精准检测 AI 生成人脸的工具,专注于维护数字世界的真实性,为抵御视觉虚假信息提供隐私保护且开源的解决方案。该模型通过微调预训练模型实现轻量级且高准确率的检测。
unsloth
Qwen3-VL-2B-Instruct是Qwen系列中最强大的视觉语言模型,具备卓越的文本理解与生成能力、深入的视觉感知与推理能力、长上下文支持以及强大的空间和视频动态理解能力。该模型采用2B参数规模,支持指令交互,适用于多模态AI应用。
facebook
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调即可在广泛的视觉任务中超越专门的先进模型。该模型采用自监督学习方式,生成高质量的密集特征,在图像分类、分割、深度估计等多种任务中表现出色。
DINOv3是Meta AI开发的多功能视觉基础模型,无需微调就能在广泛视觉任务中超越专业模型。该模型能生成高质量密集特征,在各种视觉任务中表现出色,显著超越了以往的自监督和弱监督基础模型。
DINOv3是Meta AI开发的一系列通用视觉基础模型,无需微调就能在多种视觉任务中超越专门的先进模型。该模型采用Vision Transformer架构,在16.89亿张网络图像上预训练,能生成高质量的密集特征,在图像分类、分割、检索等任务中表现出色。
deepseek-community
DeepSeek-VL是由DeepSeek AI团队开发的开源视觉语言模型,能够同时处理文本和图像信息,生成上下文相关的回复。该模型采用混合视觉编码器,支持高分辨率图像处理,在真实世界的视觉语言理解应用中表现出色。
aiwithoutborders-xyz
这是一个在法医应用中检测AI生成图像的视觉Transformer模型,训练于迄今为止最大的数据集。
buildborderless
这是一个基于视觉Transformer架构的图像分类模型,专门用于检测AI生成的图像,为法医应用提供支持。模型在包含270万张图像的大规模数据集上训练,涵盖15+个生成器和4600+个模型。
unum-cloud
UForm是一款小巧的多模态AI模型,可将视觉和英文文本映射到共享向量空间,支持内容理解与生成。该模型采用轻量级设计,文本编码器为4层BERT,视觉编码器为ViT-S/16,可生成256维嵌入向量。
HelpingAI
PixelGen是由HelpingAI开发的先进文本到图像生成模型,拥有34.7亿参数,能够根据文本描述生成高质量的视觉图像,为创意设计和实际应用提供强大的AI工具。
stablediffusionapi
Juggernaut Reborn 是一款基于扩散模型的文本到图像生成AI模型,能够根据文本描述生成超逼真的图像。该模型专注于创建高质量的肖像和场景图像,特别擅长处理人物肖像、赛博朋克风格等复杂视觉内容。
NehaBardeDUKE
基于AutoTrain框架训练的视觉图像二分类模型,在AI生成图像分类任务中表现优异
mcp-hfspace是一个连接Hugging Face Spaces的MCP服务器,支持图像生成、语音处理、视觉模型等多种AI功能,简化了与Claude Desktop的集成。
Korx Share MCP Server是一个多功能MCP协议服务器,通过与korx.org API集成,为AI生成的视觉内容(如图表、仪表盘和HTML页面)创建安全可分享的URL,同时保持内容交互性并进行风险过滤。
Moondream MCP Server是一个基于Moondream视觉模型的图像分析服务,提供图像描述生成、物体检测和视觉问答功能,可轻松集成到Claude和Cline等AI助手中。
一个提供AI视觉分析能力的MCP服务器,支持网页截图、视觉分析、文件操作和报告生成等功能。
一个提供AI视觉分析能力的MCP服务器,支持网页截图、视觉分析、文件操作和报告生成等功能,适用于Claude等AI助手。
MCP-hfspace是一个简化连接Hugging Face Spaces的服务器工具,支持图像生成、语音处理、视觉模型等多种AI功能,与Claude Desktop无缝集成。