Plantilla de configuración de Eval Harness

Resumen

El Eval Harness es el pipeline de validación automatizada que controla la salida del agente antes de que llegue a los revisores humanos. Esta plantilla define la configuración para una instancia de eval harness: qué comprobaciones ejecutar, qué umbrales establecer, cuándo activar la revisión Human In The Loop y cómo gestionar los fallos. Cada funcionalidad o tipo de tarea obtiene su propia configuración de eval harness, referenciada desde su Live Spec.

El eval harness combina dos categorías de comprobaciones: puertas deterministas (linting, testing, escaneo de seguridad, conformidad arquitectónica) que producen resultados binarios de aprobado/fallido, y puertas probabilísticas (evaluaciones de Llm As A Judge) que puntúan dimensiones de calidad no deterministas como la legibilidad y la consistencia en el nombrado. Juntas, estas puertas detectan tanto errores objetivos como problemas de calidad subjetivos antes de que un humano dedique tiempo a la revisión.

Esta plantilla es utilizada por el Evaluation Engineer al configurar la validación para una nueva área de funcionalidad, y por el Context Architect al definir la sección de evaluación de una Live Spec.

Cuándo Usar

Use this template when:

Setting up an eval harness for a new feature area or task type
Defining quality gates for agent-generated code in a CI/CD pipeline
A Rescue Mission revealed that the existing eval harness missed an important quality dimension
The team wants to add Llm As A Judge evaluation alongside deterministic checks
Onboarding a new agent workflow that needs quality validation

Before configuring an eval harness, ensure:

The feature has a reviewed Live Spec with testable acceptance criteria
The project has a CI/CD pipeline where gate checks can run
Golden Samples exist for the feature area (needed for probabilistic evaluation baselines)
The team has agreed on pass/fail thresholds (start permissive and tighten over time)

Plantilla de configuración de Eval Harness

Resumen

Cuándo Usar

Personalizar Plantilla