苹果最新发布的多模态AI模型“Manzano”,成功将视觉识别与文本生成图像功能结合,实现“双修”能力。该模型不仅能精准理解图像内容,还能根据文本生成高质量图片,标志着AI技术的重要突破,有望满足行业对多功能模型的需求。
扫地机器人正从简单清扫工具升级为智能管家。借助AI技术,它们能通过多模态感知和实时决策,自主适应复杂家居环境。如今主流产品已能精准识别拖鞋、电线等障碍物,避免缠绕或污染,实现更高效、个性化的清洁体验。
谷歌Gmail推出AI收件箱功能,利用生成式AI技术提升邮件处理效率。该功能可自动梳理待办事项、总结重要更新,并采用分栏设计,包含“建议待办”和“主题追踪”两大板块,实现邮件内容的智能识别与主动管理。
美国犹他州希伯城警局测试AI警情记录系统时,因算法识别偏差,在官方报告中生成“警察变成了青蛙”的荒诞内容。该系统旨在通过监听执法记录仪音频自动生成报告,以减轻警员文书负担,但此次失误暴露了AI在执法应用中的技术局限。
一体化AI创意平台,集视频、图像、音乐、语音合成等功能于一体。
2025全新发布的AI语音输入法,毫秒响应,精准识别,智能重组语言。
免费AI检测器,可验证文本真伪,识别ChatGPT、Gemini等模型内容
免费在线AI检测工具,识别GPT - 5等AI生成文本,无需注册
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Anthropic
$105
$525
200
Google
$0.7
$2.8
1k
$7
$35
$2.1
$17.5
$21
Alibaba
-
$1
$10
256
Baidu
128
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
$2
alenphilip
这是一款专门用于Python代码审查的AI模型,基于Qwen2.5-7B-Instruct微调,能够识别安全漏洞、性能问题并提供代码质量改进建议。
abhi099k
基于DeBERTa-v3-large微调的AI文本检测模型,能够准确识别文本是由人类撰写还是AI生成,在自定义数据集上训练达到约97%的准确率。
GeneralAnalysis
GA Guard Lite是General Analysis开发的轻量级开源审核模型,专门用于检测语言模型输出中的违规内容。该模型能够识别七类安全风险,包括非法活动、仇恨言论、个人信息泄露等,为AI应用提供高效的内容安全防护。
ShantanuT01
基于BERT-tiny架构的轻量级AI生成文本检测模型,专门用于从RAID数据集中识别AI生成的文本内容。模型输出分数表示文本是人类生成的可能性。
UsefulSensors
Moonshine Tiny是由Moonshine AI(原有用传感器公司)开发的轻量级越南语自动语音识别模型,仅有27M参数,专为资源受限平台设计,在Fleurs和Common Voice 17数据集上表现出色。
Mungert
Granite Guardian 3.2 5B是IBM开发的AI风险检测模型,专门用于检测提示和响应中的多种安全风险。该模型基于IBM AI风险图谱,能够识别伤害、社会偏见、越狱、暴力等多种风险类型,是企业级AI安全监控的重要工具。
ai4bharat
基于Wav2Vec2架构的印地语自动语音识别模型,由AI4Bharat开发
dcarpintero
基于ModernBERT的轻量级模型,专注于识别恶意提示注入攻击,提供AI安全防护。
awsaf49
用于端到端合成歌曲检测的先进模型,能够识别AI生成的完整歌曲(包括人声、音乐、歌词和风格)
用于检测端到端AI生成歌曲的先进模型,特别擅长识别长时程伪造音频特征
unsloth
这是一个用于网络内容审核的AI模型,旨在识别和处理不符合法律法规和社会主义核心价值观的内容,维护健康有序的网络环境。
jiviai
AudioX是由Jivi AI开发的多语言自动语音识别模型,针对印度语言优化,支持印地语、古吉拉特语和马拉地语。
speechbrain
这是一个基于25000小时英文语音数据集训练的大规模自动语音识别模型,采用Conformer架构,由三星AI剑桥中心贡献。模型参数量达4.8亿,在多个测试集上表现出色,验证集WER为6.8%,测试集WER为7.5%。
AudioX是由Jivi AI开发的多语言自动语音识别模型,专门针对印度南方语言优化,支持泰米尔语、泰卢固语、卡纳达语和马拉雅拉姆语。
VinMir
GordonAI 是一个专为情感分析、情绪检测和事实核查分类设计的AI模型,基于微软mDeBERTa-v3-base预训练模型,在意大利语、英语和西班牙语三种语言上进行了微调,能够识别文本中的七种基本情绪。
haywoodsloan
这是一个基于AutoTrain训练的AI图像分类模型,能够准确识别和分类多种图像内容。
AiLab-IMCS-UL
基于whisper-large-v3微调的拉脱维亚语自动语音识别模型,由AiLab.lv训练,支持拉脱维亚语语音转文本任务。
Paranchai
基于 airesearch/wav2vec2-large-xlsr-53-th 微调的语音情感识别模型,在评估集上达到85.79%准确率
基于airesearch/wav2vec2-large-xlsr-53-th微调的泰语语音情感识别模型,支持愤怒、快乐、平静三种情感分类
SuperAnnotate
基于RoBERTa Large微调的生成文本检测模型,用于识别AI生成内容
基于MaaFramework的MCP服务器,为AI助手提供Android设备和Windows桌面自动化能力,支持OCR识别、点击、滑动、文本输入等操作,并能将操作流程转换为可复用的Pipeline。
Zen7支付代理是首个DePA去中心化支付代理的实践实现,采用多智能体协作架构,支持A2A和MCP协议,为AI智能体和Dapp应用提供多链多币种支付解决方案,实现自动化加密支付和LLM驱动的意图识别。
一个基于xAI Grok API的MCP服务器,提供AI图像分析功能,支持URL和本地文件的图像描述、元数据提取和OCR文字识别
OpenCV MCP Server是一个基于Python的计算机视觉服务,通过Model Context Protocol (MCP)提供OpenCV的图像和视频处理能力。它为AI助手和语言模型提供从基础图像处理到高级对象检测的全套计算机视觉工具,包括图像处理、边缘检测、人脸识别、视频分析和实时对象跟踪等功能。
Omni-LPR 是一个可自托管的多接口(REST 和 MCP)服务器,提供自动车牌识别(ALPR)功能,可作为独立的微服务或AI代理的工具箱使用。
VibeCheck Web测试工具是一个AI驱动的网页测试代理,旨在简化开发者的网页测试流程。它通过MCP协议与AI编程助手集成,支持自动化测试录制、执行和发现,帮助开发者快速识别和修复代码问题。
Jarvis MCP是一个基于浏览器的语音对话工具,让用户能通过麦克风与AI助手进行自然语音对话,支持30多种语言识别和远程访问,无需额外安装软件或API密钥。
一个基于GPT-4o-mini模型的图像分析MCP服务器,可处理URL或本地路径的图像内容分析
Lucidity是一个模型上下文协议(MCP)服务器,旨在通过智能提示分析提升AI生成代码的质量。它提供结构化指导,帮助识别和解决代码质量问题,支持多种编程语言,并能与AI助手无缝集成。
这是一个reMarkable平板电脑的MCP服务器,让AI助手能够读取、搜索和遍历你的整个reMarkable库,包括通过OCR识别手写笔记,将平板变成AI可访问的“第二大脑”。
一个基于Google Gemini AI的MCP服务器,提供图像、音频和视频识别功能,支持多种传输方式和客户端集成。
AiryLark MCP是一个专业级翻译服务接口,采用三阶段流程确保翻译质量,支持多语言互译和领域术语识别,适用于技术文档、学术论文等专业场景。
基于Mistral AI的OCR服务,支持本地文件和URL的图文识别
InfraNodus MCP服务器是一个集成知识图谱和文本网络分析能力的协议服务器,可将文本转换为结构化知识图谱,识别主题集群、内容空白和概念关系,为AI工作流提供增强分析能力。
该项目是一个基于MCP协议的蓝牙设备检测服务器,支持跨平台扫描和识别蓝牙设备,并提供API接口供AI助手调用。
Omen是一款AI代码分析CLI工具,通过复杂度分析、技术债务检测、依赖图、热点分析等多项指标,为AI助手提供代码库上下文,帮助预测缺陷和识别风险。
Hi-AI是基于模型上下文协议(MCP)的AI开发助手,提供36个专业工具,支持自然语言关键词识别、智能内存管理、代码分析、项目规划和任务管理,帮助开发者高效完成复杂开发任务。
一个基于GPT-4o-mini模型的图像分析MCP服务器,通过接收图片URL进行内容识别和描述
TEN Agent是一个多功能AI代理框架,集成了实时视觉、语音识别和屏幕共享检测能力,支持快速扩展开发。
MCP说话人分离与识别系统是一个集成了GPU加速的说话人分离、语音识别、情感检测和Web界面的完整解决方案。它结合了pyannote.audio的说话人分离与faster-whisper转录技术,支持持久化说话人识别(一次注册,永久识别)、双检测器情感分析(结合通用AI与个性化声纹)、实时流处理、REST API和MCP服务器,专为AI智能体集成和爱好项目设计。