AiToolGo의 로고

생성형 AI 안전 설정: Vertex AI의 콘텐츠 필터

심층 토론
기술적
 0
 0
 1
이 문서는 Vertex AI 내 Gemini API에서 사용할 수 있는 안전 및 콘텐츠 필터에 대한 개요를 제공합니다. 유해한 응답을 차단하기 위해 이러한 필터를 구성하는 방법, 안전하지 않은 프롬프트 및 응답 유형에 대한 자세한 설명, 안전 필터를 효과적으로 사용하기 위한 모범 사례를 제공합니다.
  • 주요 포인트
  • 독특한 통찰
  • 실용적 응용
  • 핵심 주제
  • 핵심 통찰
  • 학습 성과
  • 주요 포인트

    • 1
      안전 필터 구성에 대한 포괄적인 내용
    • 2
      안전하지 않은 프롬프트 및 응답에 대한 명확한 설명
    • 3
      콘텐츠 필터링을 위한 API 사용 실질적인 예시
  • 독특한 통찰

    • 1
      유해 카테고리 및 해당 정의에 대한 상세한 분석
    • 2
      안전과 콘텐츠 생성 간의 균형에 대한 통찰력
  • 실용적 응용

    • 이 문서는 개발자가 애플리케이션에 안전 조치를 구현하는 데 매우 유용한 실질적인 구성 지침을 제공합니다.
  • 핵심 주제

    • 1
      AI의 안전 필터
    • 2
      구성 가능한 콘텐츠 필터
    • 3
      유해 카테고리 및 그 영향
  • 핵심 통찰

    • 1
      생성형 AI의 안전 조치에 대한 심층 탐구
    • 2
      실제 구현을 위한 실질적인 API 예시
    • 3
      안전과 콘텐츠 생성 간의 균형에 대한 지침
  • 학습 성과

    • 1
      AI 애플리케이션에서 안전 필터의 중요성 이해
    • 2
      Gemini API를 사용하여 콘텐츠 필터를 구성하는 방법 학습
    • 3
      유해 콘텐츠 관리 모범 사례에 대한 통찰력 확보
예시
튜토리얼
코드 샘플
시각 자료
기초
고급 내용
실용적 팁
모범 사례

안전 및 콘텐츠 필터 소개 (생성형 AI)

Vertex AI의 Gemini와 같은 생성형 AI 모델은 안전을 최우선으로 하지만 유해한 응답을 생성할 수 있습니다. 콘텐츠 필터는 차단 임계값을 조정하여 잠재적으로 유해한 출력을 차단하는 데 중요합니다. 이러한 필터는 장벽 역할을 하지만 모델의 동작에 직접적인 영향을 미치지는 않습니다. 모델의 출력을 안내하기 위해서는 안전을 위한 시스템 지침을 사용하는 것이 좋습니다. 이 문서는 최적의 안전 및 책임감 있는 AI 관행을 위해 이러한 필터를 이해하고 구성하는 포괄적인 가이드를 제공합니다.

안전하지 않은 프롬프트 및 응답 이해

Vertex AI의 Gemini API는 `PROHIBITED_CONTENT`(일반적으로 CSAM), `BLOCKED_REASON_UNSPECIFIED`, `OTHER`와 같은 열거형 코드로 표시되는 다양한 이유로 프롬프트를 거부할 수 있습니다. 프롬프트가 차단되면 API는 `blockReason`과 함께 피드백을 제공합니다. 안전하지 않은 응답은 구성 불가능한 안전 필터(CSAM, PII)와 구성 가능한 콘텐츠 필터(유해 카테고리) 및 인용 필터에 의해 감지 및 차단됩니다. API는 토큰 생성이 중지된 이유를 설명하기 위해 `SAFETY`, `RECITATION`, `SPII`, `PROHIBITED_CONTENT`와 같은 열거형 코드를 사용합니다. 필터가 응답을 차단하면 `Candidate.content` 필드가 비어 있으며 모델에 피드백을 제공하지 않습니다.

구성 가능한 콘텐츠 필터: 유해 카테고리 및 점수

구성 가능한 콘텐츠 필터는 콘텐츠를 유해 목록과 비교하여 각 유해 카테고리에 대한 확률 및 심각도 점수를 할당합니다. 유해 카테고리에는 증오 발언, 괴롭힘, 성적으로 노골적인 콘텐츠, 위험한 콘텐츠가 포함됩니다. 확률 점수는 유해 가능성을 나타내며 NEGLIGIBLE, LOW, MEDIUM, HIGH 수준으로 이산화됩니다. 심각도 점수는 잠재적 유해의 정도를 나타내며 마찬가지로 네 가지 수준으로 이산화됩니다. 콘텐츠는 확률 및 심각도 점수의 다양한 조합을 가질 수 있으므로 필터의 신중한 구성이 필요합니다.

Gemini API 및 Google Cloud 콘솔을 통한 콘텐츠 필터 구성

콘텐츠 필터는 Vertex AI의 Gemini API 또는 Google Cloud 콘솔을 사용하여 구성할 수 있습니다. Gemini API는 `SEVERITY` 및 `PROBABILITY` 메서드와 `BLOCK_LOW_AND_ABOVE`, `BLOCK_MEDIUM_AND_ABOVE`, `BLOCK_ONLY_HIGH`, `HARM_BLOCK_THRESHOLD_UNSPECIFIED`, `OFF`, `BLOCK_NONE`과 같은 여러 임계값 수준으로 세밀한 제어를 제공합니다. Google Cloud 콘솔은 확률 점수만 사용하여 Off, Block few, Block some, Block most와 같은 사전 정의된 임계값 수준을 제공하는 더 간단한 UI 기반 접근 방식을 제공합니다. Gemini API 구성을 위한 Python, Node.js, Java, Go, C# 및 REST 예제를 사용할 수 있습니다.

인용 및 시민 무결성 필터

Vertex AI의 생성 코드 기능에 있는 인용 필터는 모델이 웹 페이지의 내용을 광범위하게 인용할 때 출처를 인용하여 원본 콘텐츠와 라이선스 요구 사항 준수를 보장합니다. 현재 미리 보기 상태인 시민 무결성 필터는 정치 선거 및 후보자와 관련된 프롬프트를 감지하고 차단합니다. 기본적으로 비활성화되어 있으며 `CIVIC_INTEGRITY`에 대한 차단 임계값을 `BLOCK_LOW_AND_ABOVE`, `BLOCK_MEDIUM_AND_ABOVE` 또는 `BLOCK_ONLY_HIGH`로 설정하여 활성화할 수 있습니다.

콘텐츠 필터 사용 모범 사례

콘텐츠 필터는 안전하지 않은 콘텐츠를 방지하는 데 필수적이지만, 때로는 무해한 콘텐츠를 차단하거나 유해한 콘텐츠를 놓칠 수도 있습니다. 안전과 적절한 콘텐츠 허용 사이의 올바른 균형을 찾기 위해 다양한 필터 설정을 테스트하는 것이 중요합니다. Gemini 2.5 Flash와 같은 고급 모델은 필터 없이도 안전한 응답을 생성하도록 설계되었으며, 지속적인 모니터링과 안전 설정 조정의 중요성을 강조합니다.

콘텐츠 필터 구성 예시

이 문서는 Vertex AI의 Gemini API를 사용하여 콘텐츠 필터를 구성하는 방법에 대한 예시를 제공하며, Python 및 REST 예제를 포함합니다. 이러한 예시는 성적으로 노골적인 콘텐츠, 증오 발언, 괴롭힘, 위험한 콘텐츠와 같은 다양한 유해 카테고리에 대한 임계값을 설정하는 방법을 보여줍니다. REST 예시는 특정 안전 설정을 사용하여 게시자 모델 엔드포인트에 요청을 보내는 방법을 보여줍니다.

결론

Vertex AI의 Gemini와 같은 생성형 AI 모델에서 안전 및 콘텐츠 필터를 구성하는 것은 책임감 있는 AI 개발에 매우 중요합니다. 안전하지 않은 프롬프트와 응답을 이해하고, 구성 가능한 콘텐츠 필터를 활용하며, 모범 사례를 따르면 개발자는 더 안전하고 신뢰할 수 있는 AI 애플리케이션을 만들 수 있습니다. 기능성과 안전성 간의 최적의 균형을 유지하기 위해 정기적인 모니터링과 조정이 필수적입니다.

 원본 링크: https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters

댓글(0)

user's avatar

      관련 도구