Modelos de Tarefas
TestesIntermediário

Template de Configuração do Eval Harness

Um template para definir critérios de avaliação, quality gates e limiares de aprovação/reprovação para a validação da saída do agente.

Visão Geral

O Eval Harness é o pipeline de validação automatizado que controla a saída do agente antes que ela chegue aos revisores humanos. Este template define a configuração para uma instância de eval harness — quais verificações executar, quais limiares definir, quando acionar a revisão Human In The Loop e como lidar com falhas. Cada funcionalidade ou tipo de tarefa recebe sua própria configuração de eval harness, referenciada a partir de sua Live Spec.

O eval harness combina duas categorias de verificações: gates determinísticos (linting, testes, varredura de segurança, conformidade arquitetural) que produzem resultados binários de aprovação/reprovação, e gates probabilísticos (avaliações Llm As A Judge) que pontuam dimensões de qualidade não determinísticas, como legibilidade e consistência de nomenclatura. Juntos, esses gates capturam tanto erros objetivos quanto problemas de qualidade subjetivos antes que um humano dedique tempo à revisão.

Este template é usado pelo Engenheiro de Avaliação ao configurar a validação para uma nova área de funcionalidade e pelo Context Architect ao definir a seção de avaliação de uma Live Spec.

Quando Usar

Use this template when:

  • Setting up an eval harness for a new feature area or task type
  • Defining quality gates for agent-generated code in a CI/CD pipeline
  • A Rescue Mission revealed that the existing eval harness missed an important quality dimension
  • The team wants to add Llm As A Judge evaluation alongside deterministic checks
  • Onboarding a new agent workflow that needs quality validation

Before configuring an eval harness, ensure:

  • The feature has a reviewed Live Spec with testable acceptance criteria
  • The project has a CI/CD pipeline where gate checks can run
  • Golden Samples exist for the feature area (needed for probabilistic evaluation baselines)
  • The team has agreed on pass/fail thresholds (start permissive and tighten over time)

Personalizar Modelo

Preencha as variáveis