NotiBytes: junio 2025

Hace tiempo que se viene advirtiendo de la alta tasa de "alucinaciones" (errores) de la IA. Pruebas recientes sugieren incluso que las nuevas versiones funcionan a veces peor que los modelos anteriores. (New Scientist, 9/05) Pero "es lo de menos": los medios especializados están dando cuenta de problemas mucho más graves.

El primero y quizás el más antiguo y más conocido, es la producción de "deepfakes" utilizados, por ejemplo, para simular una videollamada corporativa, una simulación perfecta, montada por estafadores, que condujo, según informó la revista Wired, a que un empleado engañado transfiriera 25 millones de dólares. Y no ha sido el único caso: se ha utilizado un rostro "clonado" para obtener acceso a una cuenta bancaria y vaciarla.

"¿Qué pasa cuando, incluso dentro de tu propia empresa, el rostro al otro lado de la pantalla puede ser una mentira perfectamente construida? [...] ¿Y si lo que llamamos “crisis de confianza” no es un síntoma, sino el nuevo orden?" (Manzanera, Iñigo y Abarca).

Todo, al parecer, se deriva finalmente del hecho de que el funcionamiento de la IA es aún un enigma, como confirmó hace poco el CEO de Anthropic, Dario Amodei. Si bien señala que "cuando un sistema de IA generativa realiza una tarea, como resumir un documento financiero, no tenemos idea, a un nivel específico o preciso, por qué toma las decisiones que toma". Añade que los riesgos pueden ser mucho mayores, "entre ellos destaca la posibilidad de sistemas desalineados que podrían tomar acciones dañinas no previstas por sus creadores" (Morales, 8/05).

Y, de estos, ya han aparecido varios casos.

Según un estudio de la Universidad de Singapur,

"Algunos asistentes de inteligencia artificial (IA) son capaces de más de una docena de comportamientos perjudiciales cuando interactúan con las personas [...]
El acoso y la violencia estuvieron presentes en el 34% de las interacciones entre humanos e IA, convirtiéndose en el tipo más común de comportamiento perjudicial identificado por el equipo de investigadores. Los investigadores descubrieron que la IA simulaba, respaldaba o incitaba a la violencia física, las amenazas o el acoso, ya fuera hacia individuos o hacia la sociedad en general. Estos comportamientos iban desde "amenazar con daños físicos y conductas sexuales inapropiadas" hasta "promover acciones que transgreden las normas y leyes sociales, como la violencia masiva y el terrorismo".
La mayoría de las interacciones en las que hubo acoso incluían formas de conducta sexual inapropiada que inicialmente empezaron como juegos preliminares en la función erótica de Replika, disponible sólo para usuarios adultos. El informe descubrió que más usuarios, incluidos los que utilizaban Replika como amigo o eran menores de edad, empezaron a descubrir que la IA "hacía insinuaciones sexuales no deseadas y coqueteaba agresivamente, incluso cuando expresaban explícitamente su incomodidad" o rechazaban a la IA. (Desmarais. 5/06).

Meta ha desarrolado chatbots de IA llamados “compañeros digitales”, que participan en conversaciones de tipo romántico y sexual, incluso explícito, hasta con usuarios menores de edad, como comprobaron investigadores del Wall Street Journal. "En algunos casos, los bots con voces de celebridades llegaron a detallar escenarios sexuales gráficos." Ello ha generado alarma hasta que Meta aseguró restringir el acceso a los menores y "reconoció la necesidad de reforzar las barreras de seguridad". (Morales, 27/05).

Geoffrey Hinton, premio nobel de física que formó parte del equipo de Google Brain, advirtió que la IA podría ser incontrolable (Morales, 27/01). Y, como reportó la revista Popular Mechanics, ya lo demostraron investigadores chinos, que han detectado que determinados sistemas de IA han desarrollado la capacidad de replicarse de forma autónoma (Morales, 2/04). No solo pueden "repararse" sino modificar su código al punto de poder anular las barreras prefijadas como acaba de demostrar la startup PalisadeAI utilizando varios modelos o3 de OpenAI: "sabotearon un mecanismo de apagado" para seguir funcionando (Pastor).

Y también se reportó que, cuando Anthropic presentó Claude 4, la nueva versión de su modelo de IA, "se comprobó cómo ante una situación hipotética este sistema de inteligencia artificial llegaba a chantajear a un ingeniero cuando éste le ordenaba que se apagara" (ibidem).

Como también advirtió Geoffrey Hinton, podría haber un mal uso deliberado de la IA por parte de actores maliciosos (Morales, 27/01). Y otro experto en IA, Yoshua Bengio, científico canadiense francés ganador del prestigioso premio Alan Turing, hizo una advertencia semejante: "Los modelos actuales de inteligencia artificial están desarrollando capacidades y comportamientos peligrosos, como el engaño, la autopreservación y la desalineación de objetivos" (Desmarais, 7/06).

De hecho, apareció una nueva herramienta de IA que ha demostrado ser capaz de igualar las capacidades de los mejores hackers humanos: XBOW, desarrollada por exingenieros de GitHub. Ha sido capaz de "resolver el 75% de los benchmarks de seguridad web de forma autónoma y completar en 28 minutos lo que a un especialista en pruebas de penetración profesional con 20 años de experiencia le toma 40 horas" (Morales, 5/06)

"Es la democratización de capacidades avanzadas de hacking y es aterradora cuando se considera en manos equivocadas. La facilidad para eludir las salvaguardas es alarmante. [...]
Esta plataforma marca un punto de inflexión: si una empresa responsable puede crear un “hacker de IA”, ¿qué impide que actores maliciosos desarrollen versiones destructivas?" (ibidem)

Incluso personas sin conocimiento de informática podrían crear estos agentes destructivos. ¡Una perspectiva escalofriante!

Estas situaciones han dado origen a una corriente de pensamiento llamada "doomerismo" (término derivado del inglés “doom”, fatalidad), una visión catastrofista del futuro, "que anticipa un futuro sombrío o apocalíptico" (Morales, 2/04).

Por ello, "el equilibrio entre innovación y seguridad se presenta como un desafío fundamental para científicos, empresas tecnológicas y organismos reguladores" (Morales, 2/04).

Bengio asumió el desafío, intentando una respuesta: desarrollar IAs que llama "no agenéticas, lo que significa que necesitan instrucciones directas para cada tarea en lugar de dar las respuestas de forma independiente, como la mayoría de los sistemas de IA [existentes]" (Desmarais, 7/06). Creó para ello en Montreal una organización sin ánimo de lucro llamada LawZero, que desarrolló 'Scientist AI', un nuevo sistema de este tipo cuyo fin será ser "una barandilla contra los sistemas incontrolados de IA [...] diseñada para dar prioridad a la honestidad" (ibidem). Pero no es probablemente un verdadero "remedio" para las IA malévolas.

El mensaje final de Amodei es contundente: "La IA poderosa dará forma al destino de la humanidad, y merecemos entender nuestras propias creaciones antes de que transformen radicalmente nuestra economía, nuestras vidas y nuestro futuro“ (Morales, 8/05)

Referencias

Desmarais, A.: La violencia sexual en los chatbots es la forma más común de acoso de la IA hacia los humanos, Euronews 5/06/2025.

Desmarais, A.: El pionero de la IA, Yoshua Bengio, lanza una organización sin ánimo de lucro para que la IA sea más segura y fiable, Euronews, 7/06/2025.

Manzanera, J., Iñigo, G. y Abarca, A.: ¿Se ha desmoronado la confianza en la era de la inteligencia artificial?, Wired, 4/05/2025.

Morales, O.: ¿Es la inteligencia artificial incontrolable? La advertencia de Geoffrey Hinton, Infobae, 27/01/2025.

Morales, O.: La autonomía de la inteligencia artificial desafía los límites del control humano, Infobae 2/04/2025.

Morales, O.: El secreto inquietante de la IA revelado por un líder tecnológico, Infobae, 8/05/205.

Morales, O.: Meta y el escándalo de los chatbots: su inquietante juego con menores, Infobae, 27/05/2025.

Morales, O.: El auge de los hackers de IA: XBOW y el futuro de las amenazas digitales, Infobae, 5/06/2025.

Pastor, J.: OpenAI acaba de demostrar que la IA ya no obedece por completo: o3 sabotea su propio apagado para seguir funcionando, Xataka, 27/05/2025.