Evaluation Harness
A suíte de testes automatizada que valida cada saída do agente antes que chegue a um revisor humano.
Definição
O Evaluation Harness (Eval Harness) é a suíte de testes automatizada que é executada continuamente durante a execução do agente, validando cada saída antes que chegue a um revisor humano. Ele combina testes funcionais, varreduras de segurança, verificações de conformidade arquitetural e avaliações LLM-as-a-Judge em um portal de qualidade unificado. Nenhum código gerado por agente é apresentado a um humano até que passe pelo Eval Harness.
O Eval Harness realiza dois tipos de validação:
- Validação Determinística — verificações binárias de aprovação/reprovação baseadas em regras estritas, incluindo a suíte de testes existente, verificações de linter e formatter, scanners de segurança e regras de conformidade arquitetural.
- Avaliação Probabilística — avaliações LLM-as-a-Judge para aspectos de qualidade não determinísticos, como legibilidade do código, consistência na nomenclatura e aderência às convenções do projeto.
Principais características operacionais:
- Circuit Breakers — o sistema impõe orçamentos de token e interrompe a execução quando um agente excede sua alocação de computação para uma única tarefa.
- Rastros de Execução — cada execução de avaliação produz logs detalhados para depuração e observabilidade.
- Gatilhos de Escala — quando a validação falha repetidamente, o sistema levanta uma Blocker Flag que direciona a tarefa para um operador humano.
O Eval Harness é o principal portal de qualidade automatizado em fluxos de trabalho agenticos, situado entre a execução do agente e a revisão humana.