Ventana de Contexto

Una ventana de contexto es el número máximo de tokens que un LLM (large language model) puede procesar en una sola interacción, abarcando tanto el prompt de entrada como la salida generada. Representa la memoria de trabajo del modelo, determinando cuánta información puede considerar a la vez al generar una respuesta.

Las características clave de las ventanas de contexto incluyen:

Medición Basada en Tokens: Las ventanas de contexto se miden en tokens, no en palabras. Un token es típicamente un fragmento de palabra, un signo de puntuación o una palabra común. El texto en inglés promedia aproximadamente 1.3 tokens por palabra.
Presupuesto Compartido: La ventana de contexto se comparte entre la entrada y la salida. Un modelo con una ventana de 200K tokens que recibe un prompt de 150K tokens puede generar como máximo 50K tokens en respuesta.
Expansión Rápida: Las ventanas de contexto han crecido drásticamente, desde los 4K tokens de GPT-3 en 2020 hasta modelos como Claude y Gemini que soportan 200K o más tokens para 2025, permitiendo el procesamiento de bases de código completas o libros.
Compensaciones de Atención: Si bien las ventanas más grandes permiten más contexto, los modelos pueden prestar menos atención de manera confiable a la información en el medio de contextos muy largos, un fenómeno conocido como el problema de "lost in the middle".
Implicaciones de Costo: Las ventanas de contexto más grandes aumentan los costos de inferencia, ya que el procesamiento escala con el número de tokens. Esto hace que la gestión eficiente del contexto sea una preocupación clave de ingeniería.

Ventana de Contexto

Definición