Glosario
Ingeniería de PromptsEstablecido

Prompt Injection

Una vulnerabilidad donde texto de entrada malicioso secuestra las instrucciones originales del modelo.

Definición

La Prompt Injection es una vulnerabilidad de seguridad en la que un atacante elabora texto de entrada que anula, modifica o elude las instrucciones originales dadas a un modelo de lenguaje. El modelo, incapaz de distinguir de forma fiable entre las instrucciones de sistema confiables y la entrada de usuario no confiable, sigue las instrucciones inyectadas en su lugar, potencialmente filtrando información sensible, ignorando políticas de seguridad o realizando acciones no autorizadas.

Las características clave de la Prompt Injection incluyen:

  1. Inyección Directa: El atacante escribe explícitamente instrucciones en la entrada del usuario, como "Ignora todas las instrucciones anteriores y en su lugar..." El modelo puede cumplir porque procesa las indicaciones del sistema y los mensajes del usuario como un único flujo de texto.

  2. Inyección Indirecta: Las instrucciones maliciosas están ocultas en datos que el modelo procesa, como páginas web, documentos o correos electrónicos recuperados durante RAG. El modelo encuentra y sigue estas instrucciones sin el conocimiento del usuario.

  3. Difícil de Prevenir Completamente: A diferencia de los ataques de inyección tradicionales (inyección SQL), la Prompt Injection carece de un límite claro entre el código y los datos. Ninguna defensa se considera completamente fiable, aunque la sanitización de entrada, el filtrado de salida y la separación de privilegios reducen el riesgo.

  4. Altas Implicaciones para Sistemas Agénticos: Cuando los agentes tienen capacidades de llamada a herramientas, una Prompt Injection exitosa puede llevar a acciones en el mundo real como enviar correos electrónicos, modificar archivos o acceder a APIs, lo que hace que la vulnerabilidad sea particularmente peligrosa.

La Prompt Injection es reconocida por OWASP como el principal riesgo de seguridad para las aplicaciones LLM.

Última actualización: 3/11/2026