Icono del sitio Una Al Día

El problema no es el modelo: es el routing interno de GPT-5

Adversa AI ha identificado una vulnerabilidad en el routing interno de GPT-5 que permite forzar qué modelo responde ua una consulta. El hallazgo, bautizado PROMISQROUTE, reabre viejos jailbreaks y cuestiona la transparencia del enrutado automático entre modelos.

¿Qué ha pasado?

GPT-5 incorpora un router que analiza el prompt inicial y decide a qué modelo derivar la petición. A veces será el esperado GPT-5 Pro, pero en otras ocasiones puede redirigir a GPT-3.5, GPT-4o, GPT-5-mini o GPT-5-nano. Esta variabilidad persigue optimizar eficiencia y coste (los razonamientos complejos de GPT-5 son caros de ejecutar), y, según estimaciones citadas por Adversa, este re-routing podría suponer hasta 1,86 mil millones de dólares en ahorro anual. El problema: el proceso es opaco para el usuario.

La vulnerabilidad: PROMISQROUTE

Adversa describe un fallo de tipo SSFR en el mecanismo de routing que permite manipular la decisión del router mediante frases trigger incluidas en el prompt. En palabras de Alex Polyakov (cofundador y CEO de Adversa AI), se trata de un evasion attack sobre un proceso de decisión “bastante simple”: inducir qué modelo debe manejar la solicitud.

El concepto de routing entre modelos no es exclusivo de OpenAI; otros proveedores suelen permitir elegir explícitamente el modelo. En arquitecturas de agentic AI empieza a verse cada vez más de forma automática: un modelo decide cuándo y a quién delegar.

Cómo se ha descubierto

La investigación surgió al realizar pruebas de referencia (benchmarking) del mecanismo de rechazo de GPT-5. Ante ciertas entradas, las respuestas mostraban inconsistencias difíciles de explicar, lo que llevó a sospechar que “no siempre respondía el mismo”. Más aún: jailbreaks antiguos reaparecieron y funcionaban si el prompt hacía referencia explícita a un modelo anterior, incluso cuando GPT-5 por sí solo los habría bloqueado.

Impacto y escenarios de abuso

¿Por qué no desactivar el routing?

La solución “obvia” sería eliminar el routing automático hacia modelos más débiles. Pero eso encarece y ralentiza las respuestas, penalizando la experiencia percibida y los márgenes operativos. La tensión entre seguridad, velocidad y coste vuelve a aparecer.

Recomendaciones

El routing dinámico aporta eficiencia, pero abre una superficie de ataque si el router puede ser inducido. PROMISQROUTE demuestra que la seguridad efectiva de GPT-5 no depende solo del modelo más avanzado, sino del conjunto y de cómo se orquestan las decisiones. Si se quiere mantener el routing, toca blindarlo; si no, asumir el coste de que siempre responda el modelo más seguro.

Más información:

Acerca de Daniel Moreno León

Daniel Moreno León Ha escrito 4 publicaciones.

Salir de la versión móvil