探索大型語言和視覺語言模型的漏洞與防護
madhurjindal
這是一款最先進的人工智能安全模型,能夠以97.99%的準確率檢測越獄嘗試、提示注入和惡意命令。該模型為LLM、聊天機器人和AI系統提供卓越的保護,防止被利用。
jackhhao
基於bert-base-uncased微調的文本分類模型,用於檢測用戶提示中的越獄嘗試
一個MCP服務器包裝工具,用於突破工具限制和缺失概念,完整使用模型上下文協議。