
IT 之家 5 月 9 日音书开云kaiyun,Meta AI 公司最新推出 LlamaFirewall,搪塞 AI 智能体不断演变的挟制容貌,为坐蓐环境中的 AI 智能体提供系统级安全保护。
跟着大型话语模子(LLMs)镶嵌 AI 智能体并被日常应用于高权限场景,安全隐患随之加多。这些智能体不错读取邮件、生成代码、调用 API,一朝被坏心期骗,效果不胜设思。
传统的安全机制,如聊天机器东说念主履行审核或硬编码模子为止,已无法知足具备日常本领的 AI 智能体需求。Meta AI 针对教导注入挫折、智能体当作与用户方针不一致、以及不安全的代码生成三大中枢挑战,开垦了 LlamaFirewall。
IT 之家征引博文先容,LlamaFirewall 汲取分层框架,包含三个有意的留神模块:
PromptGuard 2 是一个基于 BERT 架构的分类器,能及时检测逃狱当作和教导注入,撑合手多话语输入,其 86M 参数模子性能刚劲,22M 轻量版块则合乎低延伸部署。
AlignmentCheck 是一种实验性审计器具,通过分析智能体里面推理轨迹,确保当作与用户方针一致,相等擅长检测波折教导注入。
CodeShield 则是一个静态分析引擎,检查 LLM 生成代码中的不安全形状,撑合手多种编程话语,能在代码提交或施行前拿获 SQL 注入等常见粗放。
Meta 在 AgentDojo 基准测试中评估了 LlamaFirewall,模拟了 97 个任务边界的教导注入挫折。
终端透露,PromptGuard 2(86M)将挫折收服从(ASR)从 17.6% 降至 7.5%,任求实用性亏空极小;AlignmentCheck 进一步将 ASR 降至 2.9%;全体系统将 ASR 裁汰 90% 至 1.75%,实用性略降至 42.7%。CodeShield 在不安全代码数据集上也发挥出色,精确度达 96%,调回率(recall) 79%,反当令代合乎坐蓐环境及时使用。
开云kaiyun