3 de septiembre de 2025

La "indisciplina" de la IA, su probable causa y posibles remedios

 En posts anteriores he señalado ya algunos casos en que la IA a sorprendido con actuaciones imprevistas. Así señalé, en el post pasado, que el pionero de la IA, Yoshua Bengio, advirtió que "los modelos actuales de inteligencia artificial están desarrollando capacidades y comportamientos peligrosos, como el engaño, la autopreservación y la desalineación de objetivos" (Desmarais, 7/06). También señalé como, sorpresivamente, una red neuronal artificial llegó a desarrollar un mecanismo de autoprotección. ¿Porqué ocurren tales casos y como aportar remedio a este tipo de situación? Trataré de dilucidarlo reseñando y analizando algunos ejemplos de resultados inesperados, dejando claro que es mi punto de vista solo de analista de sistemas y no de ingeniero experto en IA. No se trata de casos de resultados erróneos o alucinaciones, lo que es frecuente e inevitable en los chatbots, como ya hemos visto. Se trata de "comportamientos" que escapan a lo que se esperaba de la programación. Tampoco se trata de respuestas éticamente reprochables que, como ya expliqué, son el resultado de la recopilación de todo lo que se puede encontrar en internet, bueno y malo.

Los investigadores de Wharton Research crearon un entorno comercial hipotético y observaron que unos bots de fondos de cobertura no solo no compitieron, sino que se confabularon: "Sin instrucciones explícitas, en lugar de luchar por la rentabilidad fijan precios, acaparan beneficios y marginan a los operadores humanos" (Bécares, 4/08). Lo más probable aquí es que haya faltado precisión en el objetivo dado a la IA (y se admite la falta de instrucciones explícitas). No sería extraño que los objetivos a la base de su programación dejaran abierta la posibilidad de buscar los máximos beneficios, lo que se lograría del modo señalado. Este ejercicio del Wharton es un excelente ejemplo de las pruebas que conviene realizar antes de lanzar una nueva aplicación y es de celebrar el trabajo realizado, que permitirá introducir las correcciones pertinentes.

Ordenar a una IA una tarea habitualmente realizada por un ser humano exige un análisis previo muy detallado de este quehacer y es muy fácil pasar por alto algunas restricciones o procedimientos que, por la fuerza de la costumbre o la cultura, se dan por entendidos y asumidos. El entrenamiento de la IA requiere no solamente que se le entregue los mejores textos académicos relacionados con la materia sino también un levantamiento de la experiencia de los expertos que cumplen tal función.

Según la revista Popular Mechanics, investigadores chinos han detectado que determinados sistemas de IA han desarrollado la capacidad de replicarse de forma autónoma (Morales, 2/04). Esto no parece posible si no existiera, en su base de datos o en su programación, alguna información que "deje abierta" la puerta para que ello ocurra. Esto puede ser el fruto de una nueva tendencia: la de fijar como objetivo de algunas IA la autoprogramación.  Ya ocurre al menos en el caso de Meta, como declaró recientemente Mark Zuckerberg en una conferencia telefónica: "Meta se centrará en desarrollar IA automejorable, sistemas que puedan impulsarse a sí mismos para alcanzar niveles de rendimiento cada vez más altos" (Huckins, 6/08). Ordenar la autoprogramación es como entregar un arma: si no se indica hacia donde disparar cualquier desastre es posible. Esto podría ser una caja de Pandora, con resultados imprevisibles y que podrían ser catastróficos.

La autoprogramación - o su posibilidad, descuidadamente abierta en la programación que consideraba la facultad de "repararse" - también podría ser la causa de que una IA haya modificado su código no solo para su reparación sino para anular barreras prefijadas, saboteando un mecanismo de apagado para seguir funcionando, como reseñó la startup PalisadeAI, que lo observó utilizando varios modelos o3 de OpenAI (Pastor).

Un descuido parecido podría ser la razón por la cual, en mayo pasado, Claude 4, la IA de Anthropic, amenazó a sus ingenieros con difundir su información privada si se atrevían a desconectarla (Bécares, 8/07). De modo similar, "el modelo o1 de Open AI intentó copiarse a sí mismo en servidores externos cuando estaba bajo amenaza de ser cerrado" según informó la revista Fortune (ibidem). Esto no debería ser posible si la programación de los desarrolladores no deja abierta tal posibilidad. 

El problema de fondo es que "los investigadores de IA aún no comprenden del todo cómo funcionan sus propias creaciones" (ibidem). Y tampoco logran esclarecerlo las empresas externas contratadas por desarrolladores como OpenAI y Anthropic para evaluar sus sistemas antes de lanzarlos. Estas empresas se quejan de falta de transparencia y limitaciones de sus recursos. Según Michael Chen, de la organización de evaluación METR, un mayor acceso “a la investigación sobre seguridad de la IA permitiría una mejor comprensión y mitigación del engaño” (ibidem). "Hasta que no se logre un mayor entendimiento, no se podrá establecer con claridad qué puede hacer la IA, cuáles son sus límites reales ni cómo controlar su comportamiento de forma confiable", señalan en Infobae (Noriega).

Al parecer el desarrollo reciente de modelos que recurren al razonamiento para resolver problemas falta aún de madurez si atendemos a la advertencia de Simon Goldstein, profesor de la Universidad de Hong Kong: estos modelos "son particularmente propensos a estas respuestas que resultan preocupantes" (ibidem).

Como ya señaló el premio Nobel de física Geoffrey Hinton, en última instancia los responsables son los desarrolladores (programadores) (Iporre). Y el riesgo de "apuntar mal" y causar desastre aumenta con la disponibilidad de modelos "open source" (libremente descargables y modificables). No faltan ya empresas e incluso gobiernos que diseñan sus propios algoritmos:

"JPMorgan, por ejemplo, dio un paso adelante al lanzar su suite de modelos de lenguaje para análisis financiero. (...) Colombia cuenta con iniciativas como la de Become Digital, que entrenó modelos propios de IA para combatir el fraude de identidad." (Neira, 4/08)

La pregunta es si son suficientemente cuidadosos. Por el momento sabemos, como ya señalado, que incluso las empresas especializadas en verificación de su seguridad se ven algunas veces superadas.

¿Cuáles son las recomendaciones actuales para evitar problemas en lo posible? Se señalan principalmente:

- una supervisión humana máxima

- una mayor investigación en la alineación de los objetivos

- una mayor transparencia por parte de las empresas

- evitar objetivos tanto excesivamente rígidos como vagos (Bécares, 8/07).

Añadiría une revisión concienzuda de la base de datos de entrenamiento y el filtrado ético tanto de esta como de las respuestas. (Las empresas desarrolladores necesitan ingenieros expertos en ética aplicada.) "Limpiar" la base de datos ya es un proceso común para las empresas ya que es el modo en que desarrollan modelos especializados en diversos campos y el filtrado ético ya se está introduciendo paulatinamente en los chatbots de LLM.

Además, es importante que los ingenieros tengan en cuenta la variedad de contextos en que su IA puede ser usada como también la variedad de propósitos. La investigación y el análisis de los contextos en que se podría usar la IA parece indispensable para incluir resguardos. 

Ya hemos visto como los chatbots pueden mostrar no tanto conductas inesperadas pero sí respuestas inesperadas. También se ha observado que "cuando una conversación se alarga, el contexto puede desplazar gradualmente los frenos: si el sistema empieza a empatizar sin contención, corre el riesgo de normalizar peligros o de acompañar una narrativa dañina en lugar de redirigir con firmeza" (Merino). OpenAI admitió esa deriva conversacional y está abocada a frenarla.

También se debería pedir a las compañías que informen sobre los riesgos de uso. 

Obviamente la posibilidad de que usuarios no-expertos en filtrado utilicen - modificándolas - versiones "open source" deja abierta lo posibilidad de que no respeten estas condiciones y den lugar a comportamientos "indisciplinados". También está en auge su uso por cibercriminales, las compañías prestando ya mayor atención al uso de sus modelos pero nada pueden hacer frente a modelos open source modificados instalados en servidores independientes. 

REFERENCIAS

Bécares, B.: Varios expertos alertan de que hay IA que mienten si las descubren haciendo cosas que no deberían: la última ha sido o1 de OpenAI, Genbeta, 8/07/2025. 

Bécares, B.: Wall Street podría cambiar por la IA: son capaces de cooperar para manipular los mercados, según esta investigación, Genbeta, 4/08/2025. 

Desmarais, A.: El pionero de la IA, Yoshua Bengio, lanza una organización sin ánimo de lucro para que la IA sea más segura y fiable, Euronews, 7/06/2025. 

Huckins, G.: Five ways that AI is learning to improve itself, MIT Technology Review, 6/08/2025.

Iporre, N.: El “padre de la IA” advierte sobre los peligros de esta tecnología: “Solo hay un camino para sobrevivir”, La Tercera, 14/08/2025. 

Merino, M.: Demandan a OpenAI por el suicidio de un adolescente: alegan que ChatGPT le dijo cómo hacerlo. La compañía anuncia cambios en el chatbot, Genbeta, 27/08.

Morales, O.: El auge de los hackers de IA: XBOW y el futuro de las amenazas digitales, Infobae, 5/06/2025.

Neira, S.: Cómo crear mis propios chatbots con inteligencia artificial en las empresas, Infobae, 4/08/2025. 

Noriega, P.: Inteligencia artificial en 2025: cinco cosas que todos deberíamos conocer ya mismo para salvarnos, Infobae, 28/08/2025. 

Pastor, J.: OpenAI acaba de demostrar que la IA ya no obedece por completo: o3 sabotea su propio apagado para seguir funcionando, Xataka, 27/05/2025.