Relación de Spec-a-Código
El porcentaje de Live Specs que resultan en una solicitud de extracción funcional sin una reescritura de código manual, midiendo la calidad de la especificación.
Definición
La Relación de Spec-a-Código (SCR) mide el porcentaje de Live Specs que resultan en una solicitud de extracción funcional sin requerir una reescritura de código manual. Se calcula como:
PRs fusionados sin cambios de código manuales / Total de PRs generados por agentes
Un PR cuenta como "sin cambios manuales" cuando pasa el Eval Harness, pasa la revisión manual y se fusiona sin modificaciones más allá de un formato trivial. Cualquier edición de código sustancial por parte de un revisor manual —arreglar la lógica, añadir manejo de errores faltante, reestructurar un enfoque— descalifica el PR del numerador.
Rangos objetivo para equipos maduros:
- Superior a 0.7 — las especificaciones del equipo son lo suficientemente precisas como para que los agentes produzcan código listo para fusionar más del 70% del tiempo. Este es el objetivo para equipos con flujos de trabajo agenciales establecidos.
- 0.5 a 0.7 — funcional pero con margen de mejora. Las specs son generalmente sólidas, pero los casos límite o las restricciones arquitectónicas suelen estar insuficientemente especificados.
- Inferior a 0.5 — las specs no son lo suficientemente detalladas para una ejecución fiable del agente. Más de la mitad de la producción del agente requiere reescritura manual, lo que anula gran parte del beneficio de rendimiento de los flujos de trabajo agenciales.
La SCR es la métrica más procesable para el rol de Context Architect. Cuando disminuye, la causa casi siempre se debe a la calidad de la especificación en lugar de la capacidad del agente:
- Criterios de aceptación ambiguos — la spec no define condiciones claras de aprobación/fallo, dejando al agente adivinar la intención.
- Casos límite faltantes — la spec cubre la ruta de éxito pero omite el manejo de errores, las condiciones de contorno o los escenarios de concurrencia.
- Golden Samples obsoletos — los Golden Samples incluidos en el Context Packet ya no reflejan los patrones actuales de la base de código, lo que provoca que el agente produzca código estructuralmente obsoleto.
Seguir la SCR junto con la Correction Ratio proporciona una imagen completa: la SCR mide si la spec fue lo suficientemente buena para acertar a la primera, mientras que la Correction Ratio mide cuánto esfuerzo fue necesario para corregirlo cuando no fue así.