AiToolGoのロゴ

生成AIの安全設定:Vertex AIのコンテンツフィルター

詳細な議論
技術的
 0
 0
 1
この記事では、Vertex AI内のGemini APIで利用可能な安全性とコンテンツフィルターの概要を説明します。有害な応答をブロックするためにこれらのフィルターを設定する方法、安全でないプロンプトと応答の種類、および安全フィルターを効果的に使用するためのベストプラクティスについて説明します。
  • 主要ポイント
  • ユニークな洞察
  • 実用的な応用
  • 主要トピック
  • 重要な洞察
  • 学習成果
  • 主要ポイント

    • 1
      安全フィルター設定の包括的なカバー
    • 2
      安全でないプロンプトと応答の明確な説明
    • 3
      コンテンツフィルタリングのためのAPI使用の実践的な例
  • ユニークな洞察

    • 1
      有害カテゴリとその定義の詳細な内訳
    • 2
      安全性とコンテンツ生成のバランスに関する洞察
  • 実用的な応用

    • この記事は、コンテンツフィルターの設定に関する実行可能なガイダンスを提供しており、アプリケーションに安全対策を実装したい開発者にとって非常に価値があります。
  • 主要トピック

    • 1
      AIにおける安全フィルター
    • 2
      設定可能なコンテンツフィルター
    • 3
      有害カテゴリとその影響
  • 重要な洞察

    • 1
      生成AIにおける安全対策の詳細な探求
    • 2
      実際のアプリケーションのための実践的なAPI例
    • 3
      安全性とコンテンツ生成のバランスに関するガイダンス
  • 学習成果

    • 1
      AIアプリケーションにおける安全フィルターの重要性を理解する
    • 2
      Gemini APIを使用してコンテンツフィルターを設定する方法を学ぶ
    • 3
      有害コンテンツを管理するためのベストプラクティスに関する洞察を得る
チュートリアル
コードサンプル
ビジュアル
基礎
高度なコンテンツ
実践的なヒント
ベストプラクティス

安全性とコンテンツフィルターの概要(生成AI)

Vertex AI上のGeminiのような生成AIモデルは安全性を最優先していますが、それでも有害な応答を生成する可能性があります。コンテンツフィルターは、ブロックしきい値を調整することで、潜在的に有害な出力をブロックするために不可欠です。これらのフィルターは障壁として機能しますが、モデルの動作に直接影響を与えるわけではありません。モデルの出力をガイドするには、安全性に関するシステム指示が推奨されます。この記事では、最適な安全性と責任あるAIの実践のために、これらのフィルターを理解し設定するための包括的なガイドを提供します。

安全でないプロンプトと応答の理解

Vertex AI上のGemini APIは、さまざまな理由でプロンプトを拒否する可能性があり、`PROHIBITED_CONTENT`(通常はCSAM)、`BLOCKED_REASON_UNSPECIFIED`、`OTHER`などの列挙コードで示されます。プロンプトがブロックされた場合、APIは`blockReason`でフィードバックを提供します。安全でない応答は、設定不可能な安全フィルター(CSAM、PII)、設定可能なコンテンツフィルター(有害カテゴリ)、および引用フィルターによって検出およびブロックされます。APIは、トークン生成が停止した理由を説明するために、`SAFETY`、`RECITATION`、`SPII`、`PROHIBITED_CONTENT`などの列挙コードを使用します。フィルターが応答をブロックした場合、`Candidate.content`フィールドは空になり、モデルにフィードバックは提供されません。

設定可能なコンテンツフィルター:有害カテゴリとスコアリング

設定可能なコンテンツフィルターは、コンテンツを有害リストに対して評価し、各有害カテゴリの確率と重大度スコアを割り当てます。有害カテゴリには、ヘイトスピーチ、ハラスメント、性的に露骨なコンテンツ、危険なコンテンツが含まれます。確率スコアは有害性の可能性を反映し、NEGLIGIBLE、LOW、MEDIUM、HIGHのレベルに離散化されます。重大度スコアは潜在的な有害性の大きさを反映し、こちらも4つのレベルに離散化されます。コンテンツは確率スコアと重大度スコアのさまざまな組み合わせを持つ可能性があり、フィルターの慎重な設定が必要です。

Gemini APIおよびGoogle Cloudコンソールによるコンテンツフィルターの設定

コンテンツフィルターは、Vertex AIのGemini APIまたはGoogle Cloudコンソールを使用して設定できます。Gemini APIは、`SEVERITY`および`PROBABILITY`メソッドと、`BLOCK_LOW_AND_ABOVE`、`BLOCK_MEDIUM_AND_ABOVE`、`BLOCK_ONLY_HIGH`、`HARM_BLOCK_THRESHOLD_UNSPECIFIED`、`OFF`、`BLOCK_NONE`などの複数のしきい値レベルで細かい制御を提供します。Google Cloudコンソールは、確率スコアのみを使用して、Off、Block few、Block some、Block mostの定義済みしきい値レベルを備えた、よりシンプルなUIベースのアプローチを提供します。Gemini API設定については、Python、Node.js、Java、Go、C#、およびRESTの例が利用可能です。

引用フィルターと市民の誠実性フィルター

Vertex AIの生成コード機能における引用フィルターは、モデルがWebページから広範囲に引用する場合にソースを引用し、元のコンテンツとライセンス要件への準拠を保証します。現在プレビュー中の市民の誠実性フィルターは、政治選挙および候補者に関連するプロンプトを検出しブロックします。デフォルトでは無効になっており、`CIVIC_INTEGRITY`のブロックしきい値を`BLOCK_LOW_AND_ABOVE`、`BLOCK_MEDIUM_AND_ABOVE`、または`BLOCK_ONLY_HIGH`に設定することで有効にできます。

コンテンツフィルター使用のベストプラクティス

コンテンツフィルターは安全でないコンテンツを防ぐために不可欠ですが、時には無害なコンテンツをブロックしたり、有害なコンテンツを見逃したりする可能性があります。安全と適切なコンテンツの許可との間の適切なバランスを見つけるには、さまざまなフィルター設定をテストすることが重要です。Gemini 2.5 Flashのような高度なモデルは、フィルターなしでも安全な応答を生成するように設計されており、安全設定の継続的な監視と調整の重要性を強調しています。

コンテンツフィルター設定の例

この記事では、Vertex AIのGemini APIを使用してコンテンツフィルターを設定する方法の例を示しており、PythonおよびRESTの例が含まれています。これらの例は、性的に露骨なコンテンツ、ヘイトスピーチ、ハラスメント、危険なコンテンツなどのさまざまな有害カテゴリのしきい値を設定する方法を示しています。RESTの例では、特定の安全設定でパブリッシャーモデルのエンドポイントにリクエストを送信する方法を示しています。

結論

Vertex AI上のGeminiのような生成AIモデルで安全性とコンテンツフィルターを設定することは、責任あるAI開発のために不可欠です。安全でないプロンプトと応答を理解し、設定可能なコンテンツフィルターを活用し、ベストプラクティスに従うことで、開発者はより安全で信頼性の高いAIアプリケーションを作成できます。機能性と安全性の最適なバランスを維持するには、定期的な監視と調整が不可欠です。

 元のリンク: https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters

コメント(0)

user's avatar

      関連ツール