AiToolGo的标志

配置生成式 AI 安全:Vertex AI 上的内容过滤器

深入讨论
技术性
 0
 0
 1
本文概述了 Vertex AI 中 Gemini API 提供的安全和内容过滤器。它解释了如何配置这些过滤器以屏蔽有害响应,详细介绍了不安全提示和响应的类型,并提供了有效使用安全过滤器的最佳实践。
  • 主要观点
  • 独特见解
  • 实际应用
  • 关键主题
  • 核心洞察
  • 学习成果
  • 主要观点

    • 1
      全面涵盖安全过滤器配置
    • 2
      清晰解释不安全提示和响应
    • 3
      用于内容过滤的 API 用法实用示例
  • 独特见解

    • 1
      详细分解危害类别及其定义
    • 2
      深入了解安全与内容生成之间的平衡
  • 实际应用

    • 本文提供了关于配置内容过滤器的可操作指南,对于希望在其应用程序中实施安全措施的开发人员来说非常有价值。
  • 关键主题

    • 1
      AI 中的安全过滤器
    • 2
      可配置内容过滤器
    • 3
      危害类别及其影响
  • 核心洞察

    • 1
      深入探讨生成式 AI 中的安全措施
    • 2
      用于实际实现的实用 API 示例
    • 3
      关于平衡安全与内容生成的指导
  • 学习成果

    • 1
      了解 AI 应用程序中安全过滤器的重要性
    • 2
      学习如何使用 Gemini API 配置内容过滤器
    • 3
      深入了解管理有害内容的最佳实践
示例
教程
代码示例
可视化内容
基础知识
高级内容
实用技巧
最佳实践

安全与内容过滤器在生成式 AI 中的简介

像 Vertex AI 上的 Gemini 这样的生成式 AI 模型优先考虑安全性,但仍可能产生有害的响应。通过调整屏蔽阈值,内容过滤器对于阻止潜在的有害输出至关重要。这些过滤器充当屏障,但不会直接影响模型的行为。为了指导模型的输出,建议使用安全系统说明。本文提供了关于理解和配置这些过滤器以实现最佳安全性和负责任的 AI 实践的全面指南。

理解不安全提示和响应

Vertex AI 上的 Gemini API 可能因多种原因拒绝提示,这些原因由枚举代码指示,例如 `PROHIBITED_CONTENT`(通常是 CSAM)、`BLOCKED_REASON_UNSPECIFIED` 和 `OTHER`。当提示被屏蔽时,API 会提供 `blockReason` 反馈。不安全响应由不可配置的安全过滤器(CSAM、PII)、可配置的内容过滤器(危害类别)和引文过滤器检测和屏蔽。API 使用 `SAFETY`、`RECITATION`、`SPII` 和 `PROHIBITED_CONTENT` 等枚举代码来解释停止生成 token 的原因。如果过滤器屏蔽了响应,`Candidate.content` 字段将为空,而不会向模型提供反馈。

可配置内容过滤器:危害类别和评分

可配置内容过滤器根据危害列表评估内容,并为每个危害类别分配概率和严重性分数。危害类别包括仇恨言论、骚扰、色情内容和危险内容。概率分数反映了危害的可能性,离散化为微不足道、低、中和高水平。严重性分数反映了潜在危害的程度,也离散化为四个级别。内容可能具有不同的概率和严重性分数组合,需要仔细配置过滤器。

通过 Gemini API 和 Google Cloud 控制台配置内容过滤器

内容过滤器可以使用 Vertex AI 中的 Gemini API 或 Google Cloud 控制台进行配置。Gemini API 提供 `SEVERITY` 和 `PROBABILITY` 方法以及多种阈值级别,如 `BLOCK_LOW_AND_ABOVE`、`BLOCK_MEDIUM_AND_ABOVE`、`BLOCK_ONLY_HIGH`、`HARM_BLOCK_THRESHOLD_UNSPECIFIED`、`OFF` 和 `BLOCK_NONE`,从而实现精细控制。Google Cloud 控制台提供了一个更简单的基于 UI 的方法,具有预定义的阈值级别:关闭、屏蔽少量、屏蔽部分和屏蔽大部分,仅使用概率分数。提供了 Python、Node.js、Java、Go、C# 和 REST 的示例用于 Gemini API 配置。

引文和公民诚信过滤器

Vertex AI 的生成式代码功能中的引文过滤器在模型大量引用网页内容时会引用来源,确保原创内容并符合许可要求。目前处于预览阶段的公民诚信过滤器会检测并屏蔽与政治选举和候选人相关的提示。默认情况下禁用该过滤器,可以通过将 `CIVIC_INTEGRITY` 的屏蔽阈值设置为 `BLOCK_LOW_AND_ABOVE`、`BLOCK_MEDIUM_AND_ABOVE` 或 `BLOCK_ONLY_HIGH` 来启用它。

使用内容过滤器的最佳实践

虽然内容过滤器对于防止不安全内容至关重要,但它们有时可能会屏蔽良性内容或遗漏有害内容。测试不同的过滤器设置对于在安全性和允许适当内容之间找到正确的平衡至关重要。像 Gemini 2.5 Flash 这样的高级模型即使没有过滤器也能生成安全响应,这强调了持续监控和调整安全设置的重要性。

内容过滤器配置示例

本文提供了使用 Vertex AI 中的 Gemini API 配置内容过滤器的示例,包括 Python 和 REST 示例。这些示例演示了如何为不同的危害类别设置阈值,例如色情内容、仇恨言论、骚扰和危险内容。REST 示例展示了如何向 publisher 模型端点发送带有特定安全设置的请求。

结论

配置 Gemini on Vertex AI 等生成式 AI 模型中的安全和内容过滤器对于负责任的 AI 开发至关重要。通过理解不安全提示和响应,利用可配置的内容过滤器,并遵循最佳实践,开发人员可以创建更安全、更可靠的 AI 应用程序。定期监控和调整对于在安全性和功能性之间保持最佳平衡至关重要。

 原始链接:https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters

评论(0)

user's avatar

      相关工具