Glosario
EvaluaciónEn Tendencia

Guardrails

Reglas o modelos secundarios ligeros diseñados para bloquear entradas o salidas inseguras en tiempo real.

Definición

Los Guardrails son mecanismos de seguridad, implementados como reglas, clasificadores o modelos secundarios, que monitorean y filtran las entradas y salidas de un gran modelo de lenguaje (LLM) en tiempo real. Actúan como una capa protectora entre los usuarios y el modelo central, evitando que el contenido dañino, fuera de tema o que infrinja las políticas sea procesado o devuelto.

Características clave de los guardrails incluyen:

  1. Filtrado de Entradas: Los Guardrails escanean los mensajes de usuario entrantes en busca de intentos de prompt injection, solicitudes dañinas, información de identificación personal o consultas fuera de alcance antes de que lleguen al modelo principal.

  2. Validación de Salidas: Después de que el modelo genera una respuesta, los guardrails verifican si hay contenido dañino, afirmaciones alucinadas, violaciones de políticas o fugas de datos sensibles antes de que la respuesta sea entregada al usuario.

  3. Reglas Programables: Los desarrolladores definen las políticas de guardrails utilizando reglas en lenguaje natural, expresiones regulares o configuraciones estructuradas. Marcos como NVIDIA NeMo Guardrails permiten especificar límites conversacionales de forma declarativa.

  4. Clasificadores Ligeros: Muchos sistemas de guardrails utilizan modelos clasificadores pequeños y rápidos entrenados para detectar categorías específicas de contenido inseguro, ejecutándose en paralelo con el modelo principal para minimizar el impacto en la latencia.

  5. Defensa en Profundidad: Los Guardrails complementan, en lugar de reemplazar, el entrenamiento de seguridad a nivel del modelo. Los sistemas de producción suelen superponer múltiples verificaciones de guardrails junto con la alineación RLHF y las restricciones del system prompt para una protección robusta.

Los equipos a menudo validan la efectividad de los guardrails a través de un Eval Harness, ejecutando suites de pruebas adversarias para verificar que los filtros detecten entradas y salidas inseguras de manera consistente.

Última actualización: 3/11/2026