El problema no es el modelo: es el routing interno de GPT-5

Adversa AI ha identificado una vulnerabilidad en el routing interno de GPT-5 que permite forzar qué modelo responde ua una consulta. El hallazgo, bautizado PROMISQROUTE, reabre viejos jailbreaks y cuestiona la transparencia del enrutado automático entre modelos.

¿Qué ha pasado?

GPT-5 incorpora un router que analiza el prompt inicial y decide a qué modelo derivar la petición. A veces será el esperado GPT-5 Pro, pero en otras ocasiones puede redirigir a GPT-3.5, GPT-4o, GPT-5-mini o GPT-5-nano. Esta variabilidad persigue optimizar eficiencia y coste (los razonamientos complejos de GPT-5 son caros de ejecutar), y, según estimaciones citadas por Adversa, este re-routing podría suponer hasta 1,86 mil millones de dólares en ahorro anual. El problema: el proceso es opaco para el usuario.

La vulnerabilidad: PROMISQROUTE

Adversa describe un fallo de tipo SSFR en el mecanismo de routing que permite manipular la decisión del router mediante frases trigger incluidas en el prompt. En palabras de Alex Polyakov (cofundador y CEO de Adversa AI), se trata de un evasion attack sobre un proceso de decisión “bastante simple”: inducir qué modelo debe manejar la solicitud.

El concepto de routing entre modelos no es exclusivo de OpenAI; otros proveedores suelen permitir elegir explícitamente el modelo. En arquitecturas de agentic AI empieza a verse cada vez más de forma automática: un modelo decide cuándo y a quién delegar.

Cómo se ha descubierto

La investigación surgió al realizar pruebas de referencia (benchmarking) del mecanismo de rechazo de GPT-5. Ante ciertas entradas, las respuestas mostraban inconsistencias difíciles de explicar, lo que llevó a sospechar que “no siempre respondía el mismo”. Más aún: jailbreaks antiguos reaparecieron y funcionaban si el prompt hacía referencia explícita a un modelo anterior, incluso cuando GPT-5 por sí solo los habría bloqueado.

Impacto y escenarios de abuso

Calidad y seguridad variables. Modelos distintos tienen sesgos, fortalezas y debilidades diferentes. Forzar el enrutado a un modelo “más débil” aumenta la probabilidad de hallucinations o salidas inseguras.
Escalada de jailbreaks. Un atacante puede anteponer una instrucción que empuje al router hacia un modelo menos alineado y ejecutar allí un jailbreak que en GPT-5 Pro fallaría.
Efecto cadena. Aunque GPT-5 Pro sea más robusto, el sistema completo queda “tan fuerte como su eslabón más débil” si el router puede ser inducido a elegirlo.

¿Por qué no desactivar el routing?

La solución “obvia” sería eliminar el routing automático hacia modelos más débiles. Pero eso encarece y ralentiza las respuestas, penalizando la experiencia percibida y los márgenes operativos. La tensión entre seguridad, velocidad y coste vuelve a aparecer.

Recomendaciones

Endurecer el perímetro del router. Añadir un guardrail previo y reforzar la lógica de decisión para que no pueda ser manipulada con trigger phrases.
Homogeneizar salvaguardas. Alinear el nivel de seguridad en todos los modelos del clúster, no solo en el de mayor capacidad de razonamiento.
Transparencia operativa. Informar al usuario —al menos de forma opcional— de qué modelo ha respondido y por qué, reduciendo la opacidad del routing.

El routing dinámico aporta eficiencia, pero abre una superficie de ataque si el router puede ser inducido. PROMISQROUTE demuestra que la seguridad efectiva de GPT-5 no depende solo del modelo más avanzado, sino del conjunto y de cómo se orquestan las decisiones. Si se quiere mantener el routing, toca blindarlo; si no, asumir el coste de que siempre responda el modelo más seguro.

Más información:

https://adversa.ai/blog/promisqroute-gpt-5-ai-router-novel-vulnerability-class/

Acerca de Daniel Moreno León

Daniel Moreno León Ha escrito 4 publicaciones.

Cookie	Duración	Descripción
cookielawinfo-checkbox-analytics	11 months	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies en la categoría "Análisis".
cookielawinfo-checkbox-functional	11 months	La cookie está configurada por el consentimiento de cookies de GDPR para registrar el consentimiento del usuario para las cookies en la categoría "Funcional".
cookielawinfo-checkbox-necessary	11 months	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. Las cookies se utilizan para almacenar el consentimiento del usuario para las cookies en la categoría "Necesario".
cookielawinfo-checkbox-others	11 months	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies en la categoría "Otro.
cookielawinfo-checkbox-performance	11 months	Esta cookie está configurada por el complemento de consentimiento de cookies de GDPR. La cookie se utiliza para almacenar el consentimiento del usuario para las cookies en la categoría "Rendimiento".
viewed_cookie_policy	11 months	La cookie está configurada por el complemento de consentimiento de cookies de GDPR y se utiliza para almacenar si el usuario ha dado su consentimiento o no para el uso de cookies. No almacena ningún dato personal.

El problema no es el modelo: es el routing interno de GPT-5

¿Qué ha pasado?

La vulnerabilidad: PROMISQROUTE

Cómo se ha descubierto

Impacto y escenarios de abuso

¿Por qué no desactivar el routing?

Recomendaciones

Más información:

Acerca de Daniel Moreno León

Publicaciones relacionadas

UAD

Aviso Legal

¿Qué ha pasado?

La vulnerabilidad: PROMISQROUTE

Cómo se ha descubierto

Impacto y escenarios de abuso

¿Por qué no desactivar el routing?

Recomendaciones

Más información:

Acerca de Daniel Moreno León

Compártelo:

Publicaciones relacionadas

Interacciones con los lectores

Deja una respuesta Cancelar la respuesta

Footer

UAD

Aviso Legal