Engenheiro(a) de Avaliação

O Engenheiro(a) de Avaliação é o papel responsável por projetar as restrições, ambientes de teste e rubricas de avaliação que validam a saída gerada por agentes antes que ela chegue aos revisores humanos. Isso representa a mais significativa transformação de papel em equipes agênticas: o QA muda de encontrar bugs após a implementação para definir as regras que previnem bugs durante a implementação.

O Engenheiro(a) de QA tradicional escreve casos de teste depois que o código é escrito e reporta defeitos para os desenvolvedores corrigirem. O Engenheiro(a) de Avaliação inverte essa sequência — construindo o Eval Harness antes que o agente comece a trabalhar, para que a saída do agente seja continuamente validada contra critérios predefinidos ao longo da execução.

As principais funções incluem:

Construir ambientes de teste Dockerizados — criar ambientes de execução isolados e reproduzíveis onde o código gerado por agentes pode ser testado sem risco para os sistemas de produção. Esses ambientes devem ser rapidamente inicializados e desligados de forma limpa para suportar o alto throughput de pipelines agênticos.
Escrever casos de teste antes da execução do agente — definir testes de aceitação, testes de integração e verificações de restrição que o Eval Harness executa automaticamente à medida que os agentes produzem saída. Esses testes são o principal portão de qualidade no pipeline.
Desenvolver rubricas LLM-as-a-Judge — elaborar critérios de avaliação estruturados que um LLM secundário usa para avaliar a saída do agente em dimensões que os testes automatizados não conseguem capturar, como legibilidade do código, consistência de nomenclatura e adesão a Golden Samples. Veja LLM-as-a-Judge para detalhes sobre essa abordagem de avaliação.
Manter Golden Samples — colaborar com o Arquiteto(a) de Sistemas Principal para manter os Golden Samples atualizados à medida que os padrões da base de código evoluem.

As principais habilidades incluem proficiência em Python e TypeScript (as linguagens primárias para ferramentas de teste), conteinerização (Docker e orquestração de microVMs) e análise estatística (interpretar métricas de avaliação como Taxa de Violação Arquitetural e Pontuação de Consistência de Padrões para identificar tendências de qualidade sistêmicas).

O trabalho do Engenheiro(a) de Avaliação determina o limite mínimo de confiabilidade de todo o pipeline agêntico. Quando a avaliação é minuciosa, os revisores humanos dedicam seu tempo a decisões de julgamento, em vez de corrigir erros mecânicos.

Engenheiro(a) de Avaliação

Definição