Configuración de la IA Generativa Segura: Filtros de Contenido en Vertex AI

Discusión en profundidad

Técnico

Este artículo proporciona una descripción general de los filtros de seguridad y contenido disponibles en la API de Gemini dentro de Vertex AI. Explica cómo configurar estos filtros para bloquear respuestas dañinas, detalla los tipos de prompts y respuestas inseguras, y ofrece mejores prácticas para usar los filtros de seguridad de manera efectiva.

puntos principales
ideas únicas
aplicaciones prácticas
temas clave
ideas clave
resultados de aprendizaje

• puntos principales
- 1
  Cobertura integral de las configuraciones de filtros de seguridad
- 2
  Explicaciones claras de prompts y respuestas inseguras
- 3
  Ejemplos prácticos de uso de API para filtrado de contenido
• ideas únicas
- 1
  Desglose detallado de las categorías de daño y sus definiciones
- 2
  Perspectivas sobre el equilibrio entre seguridad y generación de contenido
• aplicaciones prácticas
- El artículo proporciona orientación práctica sobre la configuración de filtros de contenido, lo que lo hace muy valioso para los desarrolladores que buscan implementar medidas de seguridad en sus aplicaciones.
• temas clave
- 1
  Filtros de seguridad en IA
- 2
  Filtros de contenido configurables
- 3
  Categorías de daño y sus implicaciones
• ideas clave
- 1
  Exploración en profundidad de las medidas de seguridad en IA generativa
- 2
  Ejemplos prácticos de API para implementación en el mundo real
- 3
  Orientación sobre el equilibrio entre seguridad y generación de contenido
• resultados de aprendizaje
- 1
  Comprender la importancia de los filtros de seguridad en aplicaciones de IA
- 2
  Aprender a configurar filtros de contenido utilizando la API de Gemini
- 3
  Obtener información sobre las mejores prácticas para gestionar contenido dañino

ejemplos	tutoriales	ejemplos de código	visuales
fundamentos	contenido avanzado	consejos prácticos	mejores prácticas

Tabla de contenidos

• Introducción a la Seguridad y los Filtros de Contenido en IA Generativa
• Comprensión de Prompts y Respuestas Inseguras
• Filtros de Contenido Configurables: Categorías de Daño y Puntuación
• Configuración de Filtros de Contenido a través de la API de Gemini y la Consola de Google Cloud
• Filtros de Citación e Integridad Cívica
• Mejores Prácticas para el Uso de Filtros de Contenido
• Ejemplos de Configuración de Filtros de Contenido
• Conclusión

“ Introducción a la Seguridad y los Filtros de Contenido en IA Generativa

Los modelos de IA generativa, como Gemini en Vertex AI, priorizan la seguridad pero aún pueden producir respuestas perjudiciales. Los filtros de contenido son cruciales para bloquear resultados potencialmente dañinos ajustando los umbrales de bloqueo. Estos filtros actúan como una barrera pero no influyen directamente en el comportamiento del modelo. Para guiar la salida del modelo, se recomiendan instrucciones del sistema para la seguridad. Este artículo proporciona una guía completa para comprender y configurar estos filtros para una seguridad óptima y prácticas de IA responsables.

“ Comprensión de Prompts y Respuestas Inseguras

La API de Gemini en Vertex AI puede rechazar prompts por varias razones, indicadas por códigos enum como `PROHIBITED_CONTENT` (generalmente CSAM), `BLOCKED_REASON_UNSPECIFIED` y `OTHER`. Cuando se bloquea un prompt, la API proporciona retroalimentación con un `blockReason`. Las respuestas inseguras son detectadas y bloqueadas por filtros de seguridad no configurables (CSAM, PII), filtros de contenido configurables (categorías de daño) y filtros de citación. La API utiliza códigos enum como `SAFETY`, `RECITATION`, `SPII` y `PROHIBITED_CONTENT` para explicar por qué se detuvo la generación de tokens. Si un filtro bloquea una respuesta, el campo `Candidate.content` está vacío, sin proporcionar retroalimentación al modelo.

“ Filtros de Contenido Configurables: Categorías de Daño y Puntuación

Los filtros de contenido configurables evalúan el contenido frente a una lista de daños, asignando puntuaciones de probabilidad y severidad para cada categoría de daño. Las categorías de daño incluyen Discurso de Odio, Acoso, Contenido Sexualmente Explícito y Contenido Peligroso. Las puntuaciones de probabilidad reflejan la probabilidad de daño, discretizadas en niveles NEGLIGIBLE, LOW, MEDIUM y HIGH. Las puntuaciones de severidad reflejan la magnitud del daño potencial, también discretizadas en cuatro niveles. El contenido puede tener combinaciones variables de puntuaciones de probabilidad y severidad, lo que requiere una configuración cuidadosa de los filtros.

“ Configuración de Filtros de Contenido a través de la API de Gemini y la Consola de Google Cloud

Los filtros de contenido se pueden configurar utilizando la API de Gemini en Vertex AI o la consola de Google Cloud. La API de Gemini ofrece un control granular con los métodos `SEVERITY` y `PROBABILITY` y múltiples niveles de umbral como `BLOCK_LOW_AND_ABOVE`, `BLOCK_MEDIUM_AND_ABOVE`, `BLOCK_ONLY_HIGH`, `HARM_BLOCK_THRESHOLD_UNSPECIFIED`, `OFF` y `BLOCK_NONE`. La consola de Google Cloud proporciona un enfoque más simple basado en UI con niveles de umbral predefinidos: Off, Block few, Block some y Block most, utilizando solo puntuaciones de probabilidad. Hay ejemplos disponibles en Python, Node.js, Java, Go, C# y REST para la configuración de la API de Gemini.

“ Filtros de Citación e Integridad Cívica

El filtro de citación en las funciones de código generativo de Vertex AI cita fuentes cuando el modelo cita extensamente de una página web, asegurando el contenido original y el cumplimiento de los requisitos de licencia. El filtro de integridad cívica, actualmente en vista previa, detecta y bloquea prompts relacionados con elecciones políticas y candidatos. Está deshabilitado por defecto y se puede habilitar estableciendo el umbral de bloqueo para `CIVIC_INTEGRITY` en `BLOCK_LOW_AND_ABOVE`, `BLOCK_MEDIUM_AND_ABOVE` o `BLOCK_ONLY_HIGH`.

“ Mejores Prácticas para el Uso de Filtros de Contenido

Si bien los filtros de contenido son esenciales para prevenir contenido inseguro, ocasionalmente pueden bloquear contenido benigno o pasar por alto contenido dañino. Probar diferentes configuraciones de filtros es crucial para encontrar el equilibrio adecuado entre seguridad y permitir contenido apropiado. Modelos avanzados como Gemini 2.5 Flash están diseñados para generar respuestas seguras incluso sin filtros, enfatizando la importancia del monitoreo continuo y el ajuste de la configuración de seguridad.

“ Ejemplos de Configuración de Filtros de Contenido

El artículo proporciona ejemplos de cómo configurar filtros de contenido utilizando la API de Gemini en Vertex AI, incluyendo ejemplos en Python y REST. Estos ejemplos demuestran cómo establecer umbrales para diferentes categorías de daño, como contenido sexualmente explícito, discurso de odio, acoso y contenido peligroso. El ejemplo de REST muestra cómo enviar una solicitud al endpoint del modelo publicador con configuraciones de seguridad específicas.

“ Conclusión

Configurar la seguridad y los filtros de contenido en modelos de IA generativa como Gemini en Vertex AI es crucial para el desarrollo responsable de IA. Al comprender los prompts y respuestas inseguras, utilizar filtros de contenido configurables y seguir las mejores prácticas, los desarrolladores pueden crear aplicaciones de IA más seguras y confiables. El monitoreo y los ajustes regulares son esenciales para mantener un equilibrio óptimo entre seguridad y funcionalidad.

Enlace original: https://cloud.google.com/vertex-ai/generative-ai/docs/multimodal/configure-safety-filters

Comentario(0)

Desc

Configuración de la IA Generativa Segura: Filtros de Contenido en Vertex AI

• puntos principales

• ideas únicas

• aplicaciones prácticas

• temas clave

• ideas clave

• resultados de aprendizaje

Tabla de contenidos

“ Introducción a la Seguridad y los Filtros de Contenido en IA Generativa

“ Comprensión de Prompts y Respuestas Inseguras

“ Filtros de Contenido Configurables: Categorías de Daño y Puntuación

“ Configuración de Filtros de Contenido a través de la API de Gemini y la Consola de Google Cloud

“ Filtros de Citación e Integridad Cívica

“ Mejores Prácticas para el Uso de Filtros de Contenido

“ Ejemplos de Configuración de Filtros de Contenido

“ Conclusión

Comentario(0)

Aprendizaje Similar

Dominando la API de OpenAI: Una Guía Completa para Usar GPT-3.5 y GPT-4 en Python

Luma AI: Transformando la Modelación 3D con Innovaciones de IA Visual

Maximizando el Blueprint PIR de Feedly para una Inteligencia de Amenazas Efectiva

Pasos Prácticos para un Modelado de Amenazas Efectivo en Ciberseguridad

Dominando las Acciones de IA: Una Guía para Optimizar Prompts para Obtener Perspectivas Efectivas

Dominando los Heatmaps de Seaborn para una Visualización de Datos Efectiva

Herramientas Relacionadas

Gemini

Grok

DeepSeek

Perplexity AI

Claude

Salesforce Einstein