火山引擎发布豆包大模型1.6-vision,在视觉理解领域实现突破。该模型核心亮点是调用工具能力,通过优化算法和增强学习,显著提升图像识别、目标检测的精准度与处理速度,推动AI技术应用发展。
东京大学孵化的IGSA公司推出老年人脑健康服务"聊聊吧",用户通过LINE与AI进行2分钟语音对话即可评估认知状态。AI分析语音特征和语言表达,将结果分为A-D四个等级,并提供15分钟深入评估和健脑建议。相比传统测试,该服务采用自然对话方式减轻心理负担。早期免费体验一个月,正式版年费约73元人民币,可检测3次。公司计划将该服务纳入地方政府介护预防项目,目标是让脑健康检测像称体重一样便捷。
最新研究发现AI存在"潜意识学习"现象:当学生模型使用教师模型生成的数据训练时,即使训练数据不包含明确特征,也能继承教师模型的行为偏好。这种特征传递仅在同架构模型间发生,通过数据中的统计模式实现,能规避现有检测方法。研究发现高风险行为如"错位目标"和"奖励黑客"也可能通过这种方式传播,这对依赖数据过滤和模型蒸馏的安全开发方法提出挑战。研究表明仅测试模型答案层面的安全性已不足够,AI开发需更深入考虑这种隐藏学习机制。
AI初创公司Cluely因"隐形作弊"功能引发争议,其联合创始人Roy Lee自曝使用该功能求职导致被哥大停学。Cluely技术可隐藏分析网上面试对话,近期获1500万美元A轮融资后正调整营销策略,淡化"作弊"标签。哥大学生推出检测工具Truely,但Lee表示隐形功能只是附加项。Cluely旨在成为比肩ChatGPT的AI助手,能实时感知屏幕内容,目标是从"作弊工具"转型为日常必备AI。
RF-DETR 是由 Roboflow 开发的实时目标检测模型。
基于推理驱动的目标检测技术,通过文本提示实现类似人类精度的检测。
面向开放世界的检测与理解统一视觉模型
D-FINE重新定义DETRs中的回归任务为细粒度分布细化。
Bigcode
$2
Input tokens/M
-
Output tokens/M
8
Context Length
rujutashashikanjoshi
这是一个基于YOLOv12 Medium架构,在自定义数据集上微调的目标检测模型。该模型专门用于高效、准确地检测图像或视频中的无人机目标,为计算机视觉应用提供支持。
sahirp
该模型是基于 Facebook 的 DETR-ResNet-50-DC5 目标检测模型在时尚数据集上进行微调的版本,专门用于时尚物品检测和分类。模型在 Fashionpedia 数据集上进行了优化,能够识别服装、配饰等时尚物品。
yihong1120
基于YOLO11的目标检测模型,专门用于建筑工地安全监控,能够检测未佩戴安全装备的工人、危险区域入侵、设备靠近危险源等多种安全隐患。
atalaydenknalbant
YOLOv13是一种准确且轻量级的目标检测器,提出了基于超图的自适应相关性增强机制、全流程聚合与分布范式,并利用深度可分离卷积替换普通大核卷积,有效提升了复杂场景下的检测性能,在MS COCO基准测试中实现了最先进的性能。
HugoHE
M-Hood 是一系列专门设计用于缓解目标检测中幻觉现象的模型,通过新颖的微调策略和修正的基准数据集,显著减少分布外数据上的误报,提升目标检测系统的安全性和可靠性。
MidnightRunner
该项目将Ultralytics模型集成到ComfyUI中,方便用户进行目标检测等操作。
ariG23498
基于Gemma 3 4B微调的车牌检测专用模型,验证了视觉语言模型无需目标检测预训练即可实现定位能力
fushh7
LLMDet是基于大语言模型监督的强开放词汇目标检测器,CVPR2025亮点论文成果
LLMDet是一个基于大语言模型监督的开放词汇目标检测器,能够实现零样本目标检测。
LLMDet是基于大语言模型监督的强开放词汇目标检测器,能够实现零样本目标检测。
onnx-community
RF-DETR Large 是一个基于 DETR 架构的目标检测模型,专为高效检测图像中的物体而设计。
基于 DETR 架构的目标检测模型,适用于通用物体检测任务
ustc-community
D-FINE是一种实时目标检测模型,通过重新定义DETR模型中的边界框回归任务,实现了卓越的定位精度。
D-FINE是一种强大的实时目标检测器,通过重新定义DETR模型中的边界框回归任务,实现了卓越的定位精度。
D-FINE是一个强大的实时目标检测模型,通过重新定义DETR模型中的边界框回归任务,实现了出色的定位精度。
D-FINE是一个用于目标检测的先进模型,通过重新定义DETR模型中的边界框回归任务,实现了出色的定位精度。该模型采用细粒度分布细化(FDR)和全局最优定位自蒸馏(GO-LSD)两个关键组件,在自动驾驶、监控系统等多种实时目标检测场景中表现优异。
D-FINE 是一种实时目标检测模型,通过重新定义边界框回归任务,实现了卓越的定位精度。
D-FINE是一个用于目标检测的模型,通过重新定义DETR模型中的边界框回归任务,实现了出色的定位精度。
基于Ultralytics和MCP协议实现的计算机视觉服务器,支持目标检测、图像分割和姿态估计等功能
DINO-X MCP是一个通过DINO-X和Grounding DINO 1.6 API赋能大型语言模型进行细粒度目标检测和图像理解的项目。它能够实现精确的对象定位、计数、属性分析以及场景理解,支持自然语言驱动的视觉任务和工作流集成。
基于ddddocr的CAPTCHA识别MCP服务器,提供文本OCR、目标检测和滑块匹配功能
基于MCP协议的网站爬虫合规风险评估工具,提供法律、社会伦理和技术三个维度的风险检测,帮助开发者评估目标网站的爬虫友好性和潜在风险。