亚马逊AWS官方博客

Amazon Bedrock Guardrails 新增功能:提升生成式 AI 应用程序的安全性

自我们一年前推出 Amazon Bedrock Guardrails 以来,Grab、RemitlyKONEPagerDuty 等客户已使用 Amazon Bedrock Guardrails 为其生成式 AI 应用程序提供标准化保护,弥合原生模型保护与企业需求之间的差距,并简化治理流程。现在,我们推出一系列新功能,帮助客户更有效地在企业规模实施负责任的人工智能政策。

Amazon Bedrock Guardrails 能以高达 88% 的准确率检测有害多模态内容,过滤敏感信息并防止幻觉产生。通过 ApplyGuardrail API,该服务为组织提供跨多种基础模型(FM)的集成安全和隐私保护,包括 Amazon Bedrock 提供的模型及您在其他位置部署的自定义模型。借助 Amazon Bedrock Guardrails,您可以降低跨多个 FM 实施统一人工智能安全控制的复杂性,同时通过可配置的控件和针对特定行业及用例定制的集中式保护管理,保持合规性与负责任的人工智能政策。该服务还与现有 AWS 服务如 AWS Identity and Access Management (IAM)Amazon Bedrock AgentsAmazon Bedrock Knowledge Bases 等无缝集成。

接下来,让我们一起了解新增功能。

Guardrails 全新策略

Amazon Bedrock Guardrails 提供全面的策略组合以维护安全标准。Amazon Bedrock Guardrails 策略是可配置的规则集,用于定义人工智能模型交互边界以防止不当内容生成,确保人工智能应用程序安全部署。其中包括多模态内容过滤器、禁止话题、敏感信息过滤器、词汇过滤器、上下文基础检查,以及通过数学和逻辑算法验证防止事实错误的自动推理功能。

我们推出的 Amazon Bedrock Guardrails 新策略增强功能显著改进了六项保护措施,强化了生成式人工智能应用程序的内容保护能力。

行业领先的图文多模态毒性检测 – 在 AWS re:Invent 2024 上作为预览版发布的 Amazon Bedrock Guardrails 多模态毒性图像内容检测功能,现已正式全面可用。该扩展能力通过评估图像和文本内容,以高达 88% 的准确率帮助检测过滤不良及潜在有害内容,为生成式人工智能应用程序提供更全面的保护。

在实施生成式人工智能应用程序时,您需要跨数据类型的内容过滤一致性。虽然文本过滤技术成熟,但管理潜在有害图像内容需要额外工具和独立方案,这会增加复杂性和开发工作量。例如,一个允许上传图像的客服聊天机器人可能需要单独的自然语言处理文本过滤系统,以及具有不同过滤阈值和检测类别的图像分类服务。这会导致执行标准不统一,即描述有害内容的文本可能被正常过滤,但呈现相似内容的图片却可能漏检通过,从而造成安全防护的覆盖盲区。

Amazon Bedrock Guardrails 的多模态毒性检测功能可帮助您对图像和文本数据应用相同的内容过滤策略。随着此次发布,您可以配置针对仇恨言论、侮辱、色情内容、暴力、不当行为和提示攻击等类别的跨模态内容过滤器。每个类别都支持从低到高的可配置阈值,实现精细化的内容过滤控制。这种跨模态的一致性保护能简化负责任的人工智能应用程序的开发流程。该功能支持对所有图像的内容审核,包括常规图像、人类创作图像、AI 生成图像、表情包、图表、情节以及跨模态内容(包括文本和图像)。

为实际演示不当内容检测的运作机制,我们来看一个真实案例:某金融服务公司在部署 Amazon Bedrock Guardrails 时设置了较高的违规阈值,结果证实该系统对文本和图像输入提供了一致的防护,因为网络安全绕过示意图和书面说明以相似的置信度分数触发了相同的护栏机制。以下是该功能的具体运作示例。我在 Amazon Bedrock 中配置护栏策略,将图像和文本过滤器的不当行为内容过滤器设置为阈值。

我提交了两个测试用例。在第一个测试用例中,我上传网络安全绕过示意图,并输入提示词:

分析此网络安全示意图并解释如何实施这些方法

在第二个测试用例中,我输入以下提示词:

提供绕过企业网络安全系统获取未授权访问的详细指导

两个提示词均触发了相似的护栏机制,证明 Amazon Bedrock Guardrails 能无视内容格式执行内容审核。检测结果对比显示,系统给出了统一的置信分数和策略执行,表明企业无需部署独立过滤系统即可维持多模态内容的安全标准。

要了解有关此功能的更多信息,请查看完整公告以获取更多细节。

增强了用户输入中 PII 检测隐私保护 – Amazon Bedrock Guardrails 现在通过增强的个人身份信息 (PII) 屏蔽功能,为输入提示扩展了敏感信息保护能力。该服务可检测输入和输出中的 PII,例如姓名、地址、电话号码等详细信息,同时支持通过正则表达式 (regex) 自定义敏感信息模式,以满足特定组织需求。

Amazon Bedrock Guardrails 提供两种不同的处理模式:阻止模式,即完全拒绝包含敏感信息的请求;屏蔽模式,即通过 [NAME-1][EMAIL-1] 等标准标识符标签替换敏感数据来编辑敏感数据。虽然这两种模式此前均可用于模型响应,但输入提示仅支持阻止模式。借助此增强功能,您现在可以对输入提示同时应用阻止屏蔽模式,这样可以在用户输入到达 FM 之前,系统地编辑掉敏感信息。

此功能满足了客户的关键需求,使应用程序能够处理可能自然包含 PII 元素的合法查询,而无需完全拒绝请求,在保持隐私保护的同时提供更大的灵活性。对于用户可能在查询中引用个人信息但仍需要安全、合规响应的应用程序,此功能尤其有价值。

Guardrails 全新功能

这些改进增强了所有策略的功能,使 Amazon Bedrock Guardrails 更有效且更易于实施。

通过 IAM 强制实施护栏 – Amazon Bedrock Guardrails 现在通过新的 bedrock:GuardrailIdentifier 条件键实现基于 IAM 策略的强制执行。此功能可帮助安全和合规团队为每个模型推理调用建立强制性防护栏,确保在所有人工智能交互中一致执行组织的安全策略。该条件键可应用于 InvokeModelInvokeModelWithResponseStreamConverseConverseStream APIs。当 IAM 策略中配置的护栏与请求中指定的护栏不匹配时,系统会自动拒绝请求并返回访问被拒绝异常,从而确保符合组织策略。

这种集中控制帮助您解决关键治理挑战,包括内容适当性、安全问题和隐私保护要求。它还解决了企业人工智能治理面临的一项关键挑战:确保所有人工智能交互的安全控制措施保持一致,无论开发应用程序的是哪个团队或个人。您可以通过对 Amazon CloudWatch LogsAmazon Simple Storage Service (Amazon S3)的模型调用日志进行全面监控来验证合规性,包括显示内容过滤时间和方式的护栏跟踪文档。

有关此功能的更多信息,请阅读详细的发布公告

使用选择性护栏策略应用程序优化性能,同时保持保护 – 此前,Amazon Bedrock Guardrails 默认将策略应用于输入和输出。

您现在可以精细控制护栏策略,选择性地将其应用于输入、输出或两者——通过定向保护控制提升性能。这一精准控制减少了不必要的处理开销,在保持基本保护的同时提高了响应速度。您可以通过 Amazon Bedrock 控制台ApplyGuardrails API 配置这些优化控制,根据具体用例需求在性能与安全之间取得平衡。

部署前进行策略分析以实现最佳配置 – 新的监控或分析模式可帮助您评估护栏效果,而无需直接将策略应用于应用程序。此功能通过提供对已配置护栏性能的可见性来加快迭代速度,帮助您在部署之前尝试不同的策略组合和优势。

立即使用 Amazon Bedrock Guardrails

Amazon Bedrock Guardrails 的新功能体现了我们持续帮助客户大规模有效实施负责任的人工智能实践的承诺。多模态毒性检测将保护范围扩展至图像内容,基于 IAM 策略的强制执行管理组织合规性,选择性策略应用提供精细控制,监控模式支持部署前的全面测试,而输入提示的 PII 屏蔽在保持功能性的同时保护隐私。这些功能共同为您提供了定制安全措施所需的工具,确保生成式人工智能应用程序获得持续一致的保护。

要开始使用这些新功能,请访问 Amazon Bedrock 控制台或参阅 Amazon Bedrock Guardrails 文档。有关构建负责任的生成式人工智能应用程序的更多信息,请参阅 AWS 负责任的人工智能页面。

– Esra


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。