Glossário
AvaliaçãoEmergente

Score de Consistência de Padrões

A métrica que mede o quão estritamente o código gerado pelo agente adere aos Golden Samples e aos padrões estabelecidos da base de código.

Definição

O Score de Consistência de Padrões mede o quão estritamente o código gerado pelo agente adere aos Golden Samples e aos padrões estabelecidos da base de código. Ao contrário do Architectural Violation Rate, que verifica falhas de restrições rígidas, este score avalia dimensões mais flexíveis da qualidade do código: convenções de nomenclatura, organização de arquivos, padrões de tratamento de erros, abordagens de logging e similaridade estrutural com implementações de referência.

O score é avaliado por meio de três métodos complementares:

  1. Análise estática automatizada — linters e regras personalizadas que verificam convenções de nomenclatura, ordenação de importações, estrutura de arquivos e outros padrões verificáveis mecanicamente. Estes fornecem pontuação rápida e determinística em dimensões que podem ser expressas como regras.
  2. Avaliação LLM-as-a-Judge — um LLM secundário compara o código gerado pelo agente com Golden Samples usando rubricas estruturadas, pontuando dimensões como legibilidade, uso idiomático e similaridade estrutural. Consulte LLM-as-a-Judge para detalhes sobre esta abordagem de avaliação.
  3. Amostragem de revisão humana — revisão manual periódica de uma amostra aleatória da saída do agente, pontuada de acordo com a mesma rubrica usada pelo juiz LLM. Isso calibra a pontuação automatizada e captura dimensões que nem a análise estática nem a avaliação LLM capturam de forma confiável.

O score é normalizado para uma escala de 0 a 1. Faixas alvo:

  • Acima de 0.8 — os agentes estão consistentemente seguindo os padrões estabelecidos. Os Golden Samples estão atualizados e orientando a geração de forma eficaz.
  • 0.7 a 0.8 — aceitável, mas com lacunas identificáveis. Revise quais dimensões de padrão específicas pontuam mais baixo e atualize os Golden Samples ou entradas do Context Index relevantes.
  • Abaixo de 0.7 — os Golden Samples precisam ser atualizados, ou os Context Packets não os estão incluindo consistentemente durante a execução do agente. Este nível de score geralmente indica que o material de referência está desatualizado ou que o processo de montagem de contexto está omitindo referências de padrões.

O Score de Consistência de Padrões é revisado durante o Boundary Audit mensal, juntamente com o Architectural Violation Rate. Juntas, essas duas métricas fornecem ao Principal Systems Architect uma imagem completa da integridade estrutural: violações rígidas (coisas que quebram regras) e desvio suave (coisas que divergem das convenções).

Última atualização: 3/11/2026