Glossário
Arquitetura de AgentesEmergente

Engenheiro(a) de Avaliação

O papel que transforma o QA de encontrar bugs para projetar as restrições que os previnem, construir *evaluation harnesses*, ambientes de teste e rubricas LLM-as-a-Judge.

Definição

O Engenheiro(a) de Avaliação é o papel responsável por projetar as restrições, ambientes de teste e rubricas de avaliação que validam a saída gerada por agentes antes que ela chegue aos revisores humanos. Isso representa a mais significativa transformação de papel em equipes agênticas: o QA muda de encontrar bugs após a implementação para definir as regras que previnem bugs durante a implementação.

O Engenheiro(a) de QA tradicional escreve casos de teste depois que o código é escrito e reporta defeitos para os desenvolvedores corrigirem. O Engenheiro(a) de Avaliação inverte essa sequência — construindo o Eval Harness antes que o agente comece a trabalhar, para que a saída do agente seja continuamente validada contra critérios predefinidos ao longo da execução.

As principais funções incluem:

  1. Construir ambientes de teste Dockerizados — criar ambientes de execução isolados e reproduzíveis onde o código gerado por agentes pode ser testado sem risco para os sistemas de produção. Esses ambientes devem ser rapidamente inicializados e desligados de forma limpa para suportar o alto throughput de pipelines agênticos.
  2. Escrever casos de teste antes da execução do agente — definir testes de aceitação, testes de integração e verificações de restrição que o Eval Harness executa automaticamente à medida que os agentes produzem saída. Esses testes são o principal portão de qualidade no pipeline.
  3. Desenvolver rubricas LLM-as-a-Judge — elaborar critérios de avaliação estruturados que um LLM secundário usa para avaliar a saída do agente em dimensões que os testes automatizados não conseguem capturar, como legibilidade do código, consistência de nomenclatura e adesão a Golden Samples. Veja LLM-as-a-Judge para detalhes sobre essa abordagem de avaliação.
  4. Manter Golden Samples — colaborar com o Arquiteto(a) de Sistemas Principal para manter os Golden Samples atualizados à medida que os padrões da base de código evoluem.

As principais habilidades incluem proficiência em Python e TypeScript (as linguagens primárias para ferramentas de teste), conteinerização (Docker e orquestração de microVMs) e análise estatística (interpretar métricas de avaliação como Taxa de Violação Arquitetural e Pontuação de Consistência de Padrões para identificar tendências de qualidade sistêmicas).

O trabalho do Engenheiro(a) de Avaliação determina o limite mínimo de confiabilidade de todo o pipeline agêntico. Quando a avaliação é minuciosa, os revisores humanos dedicam seu tempo a decisões de julgamento, em vez de corrigir erros mecânicos.

Última atualização: 3/11/2026