探索大型语言和视觉语言模型的漏洞与防护
madhurjindal
这是一款最先进的人工智能安全模型,能够以97.99%的准确率检测越狱尝试、提示注入和恶意命令。该模型为LLM、聊天机器人和AI系统提供卓越的保护,防止被利用。
jackhhao
基于bert-base-uncased微调的文本分类模型,用于检测用户提示中的越狱尝试
一个MCP服务器包装工具,用于突破工具限制和缺失概念,完整使用模型上下文协议。