Plantillas de Tareas
PruebasIntermedio

Plantilla de configuración de Eval Harness

Una plantilla para definir criterios de evaluación, puertas de calidad y umbrales de aprobado/fallido para la validación de la salida del agente.

Resumen

El Eval Harness es el pipeline de validación automatizada que controla la salida del agente antes de que llegue a los revisores humanos. Esta plantilla define la configuración para una instancia de eval harness: qué comprobaciones ejecutar, qué umbrales establecer, cuándo activar la revisión Human In The Loop y cómo gestionar los fallos. Cada funcionalidad o tipo de tarea obtiene su propia configuración de eval harness, referenciada desde su Live Spec.

El eval harness combina dos categorías de comprobaciones: puertas deterministas (linting, testing, escaneo de seguridad, conformidad arquitectónica) que producen resultados binarios de aprobado/fallido, y puertas probabilísticas (evaluaciones de Llm As A Judge) que puntúan dimensiones de calidad no deterministas como la legibilidad y la consistencia en el nombrado. Juntas, estas puertas detectan tanto errores objetivos como problemas de calidad subjetivos antes de que un humano dedique tiempo a la revisión.

Esta plantilla es utilizada por el Evaluation Engineer al configurar la validación para una nueva área de funcionalidad, y por el Context Architect al definir la sección de evaluación de una Live Spec.

Cuándo Usar

Use this template when:

  • Setting up an eval harness for a new feature area or task type
  • Defining quality gates for agent-generated code in a CI/CD pipeline
  • A Rescue Mission revealed that the existing eval harness missed an important quality dimension
  • The team wants to add Llm As A Judge evaluation alongside deterministic checks
  • Onboarding a new agent workflow that needs quality validation

Before configuring an eval harness, ensure:

  • The feature has a reviewed Live Spec with testable acceptance criteria
  • The project has a CI/CD pipeline where gate checks can run
  • Golden Samples exist for the feature area (needed for probabilistic evaluation baselines)
  • The team has agreed on pass/fail thresholds (start permissive and tighten over time)

Personalizar Plantilla

Complete las variables