Template de Configuração do Eval Harness
Um template para definir critérios de avaliação, quality gates e limiares de aprovação/reprovação para a validação da saída do agente.
Visão Geral
O Eval Harness é o pipeline de validação automatizado que controla a saída do agente antes que ela chegue aos revisores humanos. Este template define a configuração para uma instância de eval harness — quais verificações executar, quais limiares definir, quando acionar a revisão Human In The Loop e como lidar com falhas. Cada funcionalidade ou tipo de tarefa recebe sua própria configuração de eval harness, referenciada a partir de sua Live Spec.
O eval harness combina duas categorias de verificações: gates determinísticos (linting, testes, varredura de segurança, conformidade arquitetural) que produzem resultados binários de aprovação/reprovação, e gates probabilísticos (avaliações Llm As A Judge) que pontuam dimensões de qualidade não determinísticas, como legibilidade e consistência de nomenclatura. Juntos, esses gates capturam tanto erros objetivos quanto problemas de qualidade subjetivos antes que um humano dedique tempo à revisão.
Este template é usado pelo Engenheiro de Avaliação ao configurar a validação para uma nova área de funcionalidade e pelo Context Architect ao definir a seção de avaliação de uma Live Spec.
Quando Usar
Use this template when:
- Setting up an eval harness for a new feature area or task type
- Defining quality gates for agent-generated code in a CI/CD pipeline
- A Rescue Mission revealed that the existing eval harness missed an important quality dimension
- The team wants to add Llm As A Judge evaluation alongside deterministic checks
- Onboarding a new agent workflow that needs quality validation
Before configuring an eval harness, ensure:
- The feature has a reviewed Live Spec with testable acceptance criteria
- The project has a CI/CD pipeline where gate checks can run
- Golden Samples exist for the feature area (needed for probabilistic evaluation baselines)
- The team has agreed on pass/fail thresholds (start permissive and tighten over time)