Template de Configuração do Eval Harness

Visão Geral

O Eval Harness é o pipeline de validação automatizado que controla a saída do agente antes que ela chegue aos revisores humanos. Este template define a configuração para uma instância de eval harness — quais verificações executar, quais limiares definir, quando acionar a revisão Human In The Loop e como lidar com falhas. Cada funcionalidade ou tipo de tarefa recebe sua própria configuração de eval harness, referenciada a partir de sua Live Spec.

O eval harness combina duas categorias de verificações: gates determinísticos (linting, testes, varredura de segurança, conformidade arquitetural) que produzem resultados binários de aprovação/reprovação, e gates probabilísticos (avaliações Llm As A Judge) que pontuam dimensões de qualidade não determinísticas, como legibilidade e consistência de nomenclatura. Juntos, esses gates capturam tanto erros objetivos quanto problemas de qualidade subjetivos antes que um humano dedique tempo à revisão.

Este template é usado pelo Engenheiro de Avaliação ao configurar a validação para uma nova área de funcionalidade e pelo Context Architect ao definir a seção de avaliação de uma Live Spec.

Quando Usar

Use this template when:

Setting up an eval harness for a new feature area or task type
Defining quality gates for agent-generated code in a CI/CD pipeline
A Rescue Mission revealed that the existing eval harness missed an important quality dimension
The team wants to add Llm As A Judge evaluation alongside deterministic checks
Onboarding a new agent workflow that needs quality validation

Before configuring an eval harness, ensure:

The feature has a reviewed Live Spec with testable acceptance criteria
The project has a CI/CD pipeline where gate checks can run
Golden Samples exist for the feature area (needed for probabilistic evaluation baselines)
The team has agreed on pass/fail thresholds (start permissive and tighten over time)

Template de Configuração do Eval Harness

Visão Geral

Quando Usar

Personalizar Modelo