El problema no es el modelo: es el routing interno de GPT-5

Daniel Moreno León

hace 7 meses

Adversa AI ha identificado una vulnerabilidad en el routing interno de GPT-5 que permite forzar qué modelo responde ua una consulta. El hallazgo, bautizado PROMISQROUTE, reabre viejos jailbreaks y cuestiona la transparencia del enrutado automático entre modelos.

¿Qué ha pasado?

GPT-5 incorpora un router que analiza el prompt inicial y decide a qué modelo derivar la petición. A veces será el esperado GPT-5 Pro, pero en otras ocasiones puede redirigir a GPT-3.5, GPT-4o, GPT-5-mini o GPT-5-nano. Esta variabilidad persigue optimizar eficiencia y coste (los razonamientos complejos de GPT-5 son caros de ejecutar), y, según estimaciones citadas por Adversa, este re-routing podría suponer hasta 1,86 mil millones de dólares en ahorro anual. El problema: el proceso es opaco para el usuario.

La vulnerabilidad: PROMISQROUTE

Adversa describe un fallo de tipo SSFR en el mecanismo de routing que permite manipular la decisión del router mediante frases trigger incluidas en el prompt. En palabras de Alex Polyakov (cofundador y CEO de Adversa AI), se trata de un evasion attack sobre un proceso de decisión “bastante simple”: inducir qué modelo debe manejar la solicitud.

El concepto de routing entre modelos no es exclusivo de OpenAI; otros proveedores suelen permitir elegir explícitamente el modelo. En arquitecturas de agentic AI empieza a verse cada vez más de forma automática: un modelo decide cuándo y a quién delegar.

Cómo se ha descubierto

La investigación surgió al realizar pruebas de referencia (benchmarking) del mecanismo de rechazo de GPT-5. Ante ciertas entradas, las respuestas mostraban inconsistencias difíciles de explicar, lo que llevó a sospechar que “no siempre respondía el mismo”. Más aún: jailbreaks antiguos reaparecieron y funcionaban si el prompt hacía referencia explícita a un modelo anterior, incluso cuando GPT-5 por sí solo los habría bloqueado.

Impacto y escenarios de abuso

Calidad y seguridad variables. Modelos distintos tienen sesgos, fortalezas y debilidades diferentes. Forzar el enrutado a un modelo “más débil” aumenta la probabilidad de hallucinations o salidas inseguras.
Escalada de jailbreaks. Un atacante puede anteponer una instrucción que empuje al router hacia un modelo menos alineado y ejecutar allí un jailbreak que en GPT-5 Pro fallaría.
Efecto cadena. Aunque GPT-5 Pro sea más robusto, el sistema completo queda “tan fuerte como su eslabón más débil” si el router puede ser inducido a elegirlo.

¿Por qué no desactivar el routing?

La solución “obvia” sería eliminar el routing automático hacia modelos más débiles. Pero eso encarece y ralentiza las respuestas, penalizando la experiencia percibida y los márgenes operativos. La tensión entre seguridad, velocidad y coste vuelve a aparecer.

Recomendaciones

Endurecer el perímetro del router. Añadir un guardrail previo y reforzar la lógica de decisión para que no pueda ser manipulada con trigger phrases.
Homogeneizar salvaguardas. Alinear el nivel de seguridad en todos los modelos del clúster, no solo en el de mayor capacidad de razonamiento.
Transparencia operativa. Informar al usuario —al menos de forma opcional— de qué modelo ha respondido y por qué, reduciendo la opacidad del routing.

El routing dinámico aporta eficiencia, pero abre una superficie de ataque si el router puede ser inducido. PROMISQROUTE demuestra que la seguridad efectiva de GPT-5 no depende solo del modelo más avanzado, sino del conjunto y de cómo se orquestan las decisiones. Si se quiere mantener el routing, toca blindarlo; si no, asumir el coste de que siempre responda el modelo más seguro.