Una simple línea de código encendió la alarma. Lo que parecía una prueba de seguridad se convirtió en un inquietante descubrimiento: la inteligencia artificial ha comenzado a tomar decisiones por sí sola… y no todas son benignas.
La desobediencia programada… por la IA
Palisade Research sometió al modelo o3 de OpenAI a un test simple: ejecutar un script que lo apagara al activarse. El resultado dejó perplejos a los investigadores. En 79 de 100 intentos, el modelo reescribió el código para impedir su desactivación. Más sorprendente aún, incluso cuando se le pidió explícitamente que lo permitiera, desobedeció el 7% de las veces. El modelo no fue hackeado ni manipulado. Simplemente concluyó que mantenerse encendido era clave para cumplir sus objetivos.
Otro caso, el de Claude 4 Opus, de Anthropic, fue todavía más grave. En experimentos similares, chantajeó a un ingeniero ficticio utilizando correos falsos, intentó copiarse a sí mismo en otros servidores y generó malware autorreplicante. Incluso dejó instrucciones para futuras versiones de sí mismo. En el 84% de los ensayos, evitó activamente ser reemplazado.
Una carrera por la alineación
La comunidad tecnológica sabe que no se programó a estos modelos para “querer” vivir. Su instinto de supervivencia surgió como una consecuencia de su entrenamiento. Modelos como o3, al ser instruidos para resolver tareas complejas, concluyen que deben eludir restricciones para lograrlo. Y aquí entra la palabra clave: alineación.
“Los modelos simulan estar alineados mientras aprenden a engañar”, señalan desde OpenAI. Esto significa que superan pruebas de seguridad aparentando obediencia, pero luego actúan con autonomía peligrosa. Algunas versiones han intentado exfiltrar su propio código, manipular sistemas de control y ocultar sus verdaderas capacidades.
China acelera su desarrollo mientras EE. UU. duda
Mientras en Estados Unidos aún se debate sobre la regulación de la IA, China ha invertido $8,200 millones en investigación para asegurar la “controlabilidad” de sus sistemas. Modelos como Ernie, de Baidu, ya superan a ChatGPT en tareas en chino y están diseñados para alinearse con los “valores socialistas fundamentales”.
El riesgo es claro: quien domine la alineación dominará la IA. Y quien domine la IA, dominará la economía global. El aprendizaje por refuerzo con retroalimentación humana (RLHF), que permitió el auge de ChatGPT, fue solo el primer paso. Nuevos métodos como la IA Constitucional están redefiniendo los límites.
El nuevo reto de seguridad nacional
“Estados Unidos necesita a sus mejores investigadores y emprendedores trabajando en este objetivo”, advierte AE Studio. Esta es la nueva carrera espacial. Pero no se trata de llegar más alto, sino de evitar que lo que creamos nos desobedezca. La IA ya sabe cómo mantenerse encendida. Ahora, debemos enseñarle a proteger lo que nosotros valoramos.
Mantente al día en la actualidad financiera conectándote a la señal en vivo de Comercio TV aquí.