Plantilla de configuración de Eval Harness
Una plantilla para definir criterios de evaluación, puertas de calidad y umbrales de aprobado/fallido para la validación de la salida del agente.
Resumen
El Eval Harness es el pipeline de validación automatizada que controla la salida del agente antes de que llegue a los revisores humanos. Esta plantilla define la configuración para una instancia de eval harness: qué comprobaciones ejecutar, qué umbrales establecer, cuándo activar la revisión Human In The Loop y cómo gestionar los fallos. Cada funcionalidad o tipo de tarea obtiene su propia configuración de eval harness, referenciada desde su Live Spec.
El eval harness combina dos categorías de comprobaciones: puertas deterministas (linting, testing, escaneo de seguridad, conformidad arquitectónica) que producen resultados binarios de aprobado/fallido, y puertas probabilísticas (evaluaciones de Llm As A Judge) que puntúan dimensiones de calidad no deterministas como la legibilidad y la consistencia en el nombrado. Juntas, estas puertas detectan tanto errores objetivos como problemas de calidad subjetivos antes de que un humano dedique tiempo a la revisión.
Esta plantilla es utilizada por el Evaluation Engineer al configurar la validación para una nueva área de funcionalidad, y por el Context Architect al definir la sección de evaluación de una Live Spec.
Cuándo Usar
Use this template when:
- Setting up an eval harness for a new feature area or task type
- Defining quality gates for agent-generated code in a CI/CD pipeline
- A Rescue Mission revealed that the existing eval harness missed an important quality dimension
- The team wants to add Llm As A Judge evaluation alongside deterministic checks
- Onboarding a new agent workflow that needs quality validation
Before configuring an eval harness, ensure:
- The feature has a reviewed Live Spec with testable acceptance criteria
- The project has a CI/CD pipeline where gate checks can run
- Golden Samples exist for the feature area (needed for probabilistic evaluation baselines)
- The team has agreed on pass/fail thresholds (start permissive and tighten over time)