Muchos de los datos recopilada por redes sociales, empresas de retail y plataformas digitales de todo tipo, corresponden a “datos personales” que la reciente ley chilena (21.719) define como “cualquier información vinculada o referida a una persona natural identificada o identificable”.
Ya sabíamos hace mucho que las plataformas de servicios digitales y las redes sociales "coleccionan" estos datos como forme de pago de sus servicios "gratuitos". Pero la recopilación para entrenar los modelos de los modelos de lenguaje (LLM) de IA van mucho más lejos que dichos servicios.
Hace poco, investigadores de la Universidad Carnegie Mellon descubrieron que millones de imágenes de pasaportes, tarjetas de crédito, certificados de nacimiento y otros documentos que contienen información de identificación personal probablemente estén incluidos en uno de los conjuntos de entrenamiento de IA de código abierto más grandes, DataComp CommonPool. Dado que los investigadores auditaron solo el 0,1 % de los datos de CommonPool (que contenía 12.800 millones de muestras de datos en 2023), estiman que la cantidad real se sitúa en cientos de millones. Además, DataComp CommonPool ha sido descargado más de dos millones de veces en los últimos dos años (Guo).
Aunque tanto la ley chilena como las de otros países y la Ley de Servicios Digitales de Europa definen y restringen el acceso y el uso de los datos personales, llegan posiblemente tarde: "Todo lo que se publica en línea puede ser copiado, y probablemente lo haya sido" (Agnew, en Guo), como parece mostrarlo el caso de CommonPool. En efecto, "Los investigadores en aprendizaje automático se han basado durante mucho tiempo en el principio de que si algo está disponible en internet, entonces es información pública y deja de ser privada" (Guo).
¿Pero que es "estar disponible en internet"? No se trata solo de la WWW o las redes sociales. El correo electrónico está en internet; también las apps de mensajería. Y podemos hacernos - inquietantes - preguntas acerca de todo lo que transmitimos por los canales digitales. ¿Mi ingreso a la web de mi banco y mis operaciones ahí, que obviamente pasan por un canal digital, pueden ser captados? Por cierto están encriptados pero, si pueden ser captados, también podrían ser decodificados, si no ahora, en el futuro con la decriptación cuántica. Este es quizás un escenario de ciencia ficción... pero solo por ahora. ¿Si toda nuestra vida digital ya puede haber sido captada o podrá serlo en el futuro, a pesar de las leyes, estaremos definitivamente "desnudos" ante posibles fisgones? ¡Ya no quedarían medidas de protección posibles!
Y el panorama es aún peor de lo parece si se piensa en la cantidad de imágenes y videos falsos que se publican a diario, de tal calidad - hoy - que ni la IA es capaz de distibguirlas de las reales. ¡Al final, no seríamos nosotros sino copias alteradas de nosotros mismos las que "alimenten" las LLM, los espías y los gobiernos con aspiración totalitaria!
Lamentablemente, como dice María José Naudon, "las democracias liberales fueron diseñadas para defenderse del garrote del tirano; no del abrazo del algoritmo". ¿Es aún posible asegurar derechos efectivos sobre los datos personales o es una quimera?
Mo Gawdat, antiguo ingeniero y directivo de Google, cree que todo depende aún de los algoritmos y que podemos controlar estos. Dice que los usuarios somos quienes diseñamos los algoritmos que definen cómo funciona el sistema y que la información que la IA procesa imita nuestros comportamientos. Y que la IA sigue aprendiendo y puede aprender ética, igual que los niños y jóvenes. Actualmente, "las máquinas que estamos creando, de momento, suelen recibir instrucciones para obtener el máximo dinero y poder" (Gawdat, en De Luis), pero hay que oponerse a esa tendencia y enseñarle ética. ¿Quien lo hará? "Nosotros" dice Gawdat, apelando sobre todo a quienes desarrollan los algoritmos de nuevos modelos.
La vía más amplia, pero que requiere profesionales entrenados, es la de los sistemas de IA de código abierto que pueden emplearse sin necesidad de licencias propietarias ni acceso a interfaces de programación restringidas. De este modo, es posible el desarrollo de modelos de IA adaptados a necesidades específicas. En esta vía puede ayudar la startup Thinking Machines Lab, especializada "en crear soluciones de IA que respondan a los indicadores clave de rendimiento (KPIs) de sus clientes, permitiendo que cada organización defina los objetivos y parámetros que guiarán el comportamiento del sistema" (Morales). Ahí, por lo tanto, podrían incluirse criterios éticos - como ya recomiendan la UNESCO y la UE - y no solamente el de maximalización de beneficios. Sin embargo, también se advierte que el contenido de los datos recopilados puede influenciar el auto-aprendizaje y la producción de resultados, al margen de las reglas éticas.
Debemos recordar que ya existen programas de AI capaces de auto-corregirse e incluso de saltarse las órdenes de apagado (ver post pasado) . ¡Sin duda podrían también saltarse los límites éticos si "juzgan" que no les son favorables!
¿Qué poder tienen realmente los no-expertos - que utilizan cada vez más los chatbots de IA - frente a las plataformas y los grandes creadores de modelos de IA cuyo objetivo habitual es "el máximo dinero y poder" porque "deben responder a los accionistas"? ¡Solo el de dejar de usarlos!
¿Y que hay de los datos privados que ya acumularon (y ofrecen, como CommonPool) los LLM y modelos más generales para entrenarse?
No hay comentarios:
Publicar un comentario
No se reciben comentarios.
Nota: solo los miembros de este blog pueden publicar comentarios.