Evaluation Harness

O Evaluation Harness (Eval Harness) é a suíte de testes automatizada que é executada continuamente durante a execução do agente, validando cada saída antes que chegue a um revisor humano. Ele combina testes funcionais, varreduras de segurança, verificações de conformidade arquitetural e avaliações LLM-as-a-Judge em um portal de qualidade unificado. Nenhum código gerado por agente é apresentado a um humano até que passe pelo Eval Harness.

O Eval Harness realiza dois tipos de validação:

Validação Determinística — verificações binárias de aprovação/reprovação baseadas em regras estritas, incluindo a suíte de testes existente, verificações de linter e formatter, scanners de segurança e regras de conformidade arquitetural.
Avaliação Probabilística — avaliações LLM-as-a-Judge para aspectos de qualidade não determinísticos, como legibilidade do código, consistência na nomenclatura e aderência às convenções do projeto.

Principais características operacionais:

Circuit Breakers — o sistema impõe orçamentos de token e interrompe a execução quando um agente excede sua alocação de computação para uma única tarefa.
Rastros de Execução — cada execução de avaliação produz logs detalhados para depuração e observabilidade.
Gatilhos de Escala — quando a validação falha repetidamente, o sistema levanta uma Blocker Flag que direciona a tarefa para um operador humano.

O Eval Harness é o principal portal de qualidade automatizado em fluxos de trabalho agenticos, situado entre a execução do agente e a revisão humana.

Evaluation Harness

Definição