Configuración de la IA Generativa Segura: Filtros de Contenido en Vertex AI
Discusión en profundidad
Técnico
0 0 1
Este artículo proporciona una descripción general de los filtros de seguridad y contenido disponibles en la API de Gemini dentro de Vertex AI. Explica cómo configurar estos filtros para bloquear respuestas dañinas, detalla los tipos de prompts y respuestas inseguras, y ofrece mejores prácticas para usar los filtros de seguridad de manera efectiva.
puntos principales
ideas únicas
aplicaciones prácticas
temas clave
ideas clave
resultados de aprendizaje
• puntos principales
1
Cobertura integral de las configuraciones de filtros de seguridad
2
Explicaciones claras de prompts y respuestas inseguras
3
Ejemplos prácticos de uso de API para filtrado de contenido
• ideas únicas
1
Desglose detallado de las categorías de daño y sus definiciones
2
Perspectivas sobre el equilibrio entre seguridad y generación de contenido
• aplicaciones prácticas
El artículo proporciona orientación práctica sobre la configuración de filtros de contenido, lo que lo hace muy valioso para los desarrolladores que buscan implementar medidas de seguridad en sus aplicaciones.
• temas clave
1
Filtros de seguridad en IA
2
Filtros de contenido configurables
3
Categorías de daño y sus implicaciones
• ideas clave
1
Exploración en profundidad de las medidas de seguridad en IA generativa
2
Ejemplos prácticos de API para implementación en el mundo real
3
Orientación sobre el equilibrio entre seguridad y generación de contenido
• resultados de aprendizaje
1
Comprender la importancia de los filtros de seguridad en aplicaciones de IA
2
Aprender a configurar filtros de contenido utilizando la API de Gemini
3
Obtener información sobre las mejores prácticas para gestionar contenido dañino
“ Introducción a la Seguridad y los Filtros de Contenido en IA Generativa
Los modelos de IA generativa, como Gemini en Vertex AI, priorizan la seguridad pero aún pueden producir respuestas perjudiciales. Los filtros de contenido son cruciales para bloquear resultados potencialmente dañinos ajustando los umbrales de bloqueo. Estos filtros actúan como una barrera pero no influyen directamente en el comportamiento del modelo. Para guiar la salida del modelo, se recomiendan instrucciones del sistema para la seguridad. Este artículo proporciona una guía completa para comprender y configurar estos filtros para una seguridad óptima y prácticas de IA responsables.
“ Comprensión de Prompts y Respuestas Inseguras
La API de Gemini en Vertex AI puede rechazar prompts por varias razones, indicadas por códigos enum como `PROHIBITED_CONTENT` (generalmente CSAM), `BLOCKED_REASON_UNSPECIFIED` y `OTHER`. Cuando se bloquea un prompt, la API proporciona retroalimentación con un `blockReason`. Las respuestas inseguras son detectadas y bloqueadas por filtros de seguridad no configurables (CSAM, PII), filtros de contenido configurables (categorías de daño) y filtros de citación. La API utiliza códigos enum como `SAFETY`, `RECITATION`, `SPII` y `PROHIBITED_CONTENT` para explicar por qué se detuvo la generación de tokens. Si un filtro bloquea una respuesta, el campo `Candidate.content` está vacío, sin proporcionar retroalimentación al modelo.
“ Filtros de Contenido Configurables: Categorías de Daño y Puntuación
Los filtros de contenido configurables evalúan el contenido frente a una lista de daños, asignando puntuaciones de probabilidad y severidad para cada categoría de daño. Las categorías de daño incluyen Discurso de Odio, Acoso, Contenido Sexualmente Explícito y Contenido Peligroso. Las puntuaciones de probabilidad reflejan la probabilidad de daño, discretizadas en niveles NEGLIGIBLE, LOW, MEDIUM y HIGH. Las puntuaciones de severidad reflejan la magnitud del daño potencial, también discretizadas en cuatro niveles. El contenido puede tener combinaciones variables de puntuaciones de probabilidad y severidad, lo que requiere una configuración cuidadosa de los filtros.
“ Configuración de Filtros de Contenido a través de la API de Gemini y la Consola de Google Cloud
Los filtros de contenido se pueden configurar utilizando la API de Gemini en Vertex AI o la consola de Google Cloud. La API de Gemini ofrece un control granular con los métodos `SEVERITY` y `PROBABILITY` y múltiples niveles de umbral como `BLOCK_LOW_AND_ABOVE`, `BLOCK_MEDIUM_AND_ABOVE`, `BLOCK_ONLY_HIGH`, `HARM_BLOCK_THRESHOLD_UNSPECIFIED`, `OFF` y `BLOCK_NONE`. La consola de Google Cloud proporciona un enfoque más simple basado en UI con niveles de umbral predefinidos: Off, Block few, Block some y Block most, utilizando solo puntuaciones de probabilidad. Hay ejemplos disponibles en Python, Node.js, Java, Go, C# y REST para la configuración de la API de Gemini.
“ Filtros de Citación e Integridad Cívica
El filtro de citación en las funciones de código generativo de Vertex AI cita fuentes cuando el modelo cita extensamente de una página web, asegurando el contenido original y el cumplimiento de los requisitos de licencia. El filtro de integridad cívica, actualmente en vista previa, detecta y bloquea prompts relacionados con elecciones políticas y candidatos. Está deshabilitado por defecto y se puede habilitar estableciendo el umbral de bloqueo para `CIVIC_INTEGRITY` en `BLOCK_LOW_AND_ABOVE`, `BLOCK_MEDIUM_AND_ABOVE` o `BLOCK_ONLY_HIGH`.
“ Mejores Prácticas para el Uso de Filtros de Contenido
Si bien los filtros de contenido son esenciales para prevenir contenido inseguro, ocasionalmente pueden bloquear contenido benigno o pasar por alto contenido dañino. Probar diferentes configuraciones de filtros es crucial para encontrar el equilibrio adecuado entre seguridad y permitir contenido apropiado. Modelos avanzados como Gemini 2.5 Flash están diseñados para generar respuestas seguras incluso sin filtros, enfatizando la importancia del monitoreo continuo y el ajuste de la configuración de seguridad.
“ Ejemplos de Configuración de Filtros de Contenido
El artículo proporciona ejemplos de cómo configurar filtros de contenido utilizando la API de Gemini en Vertex AI, incluyendo ejemplos en Python y REST. Estos ejemplos demuestran cómo establecer umbrales para diferentes categorías de daño, como contenido sexualmente explícito, discurso de odio, acoso y contenido peligroso. El ejemplo de REST muestra cómo enviar una solicitud al endpoint del modelo publicador con configuraciones de seguridad específicas.
“ Conclusión
Configurar la seguridad y los filtros de contenido en modelos de IA generativa como Gemini en Vertex AI es crucial para el desarrollo responsable de IA. Al comprender los prompts y respuestas inseguras, utilizar filtros de contenido configurables y seguir las mejores prácticas, los desarrolladores pueden crear aplicaciones de IA más seguras y confiables. El monitoreo y los ajustes regulares son esenciales para mantener un equilibrio óptimo entre seguridad y funcionalidad.
Utilizamos cookies que son esenciales para el funcionamiento de nuestro sitio. Para mejorar nuestro sitio, nos gustaría usar cookies adicionales para ayudarnos a entender cómo los visitantes lo utilizan, medir el tráfico desde plataformas de redes sociales y personalizar tu experiencia. Algunas de las cookies que usamos son proporcionadas por terceros. Para aceptar todas las cookies, haz clic en 'Aceptar'. Para rechazar todas las cookies opcionales, haz clic en 'Rechazar'.
Comentario(0)