7 de febrero de 2019

Trampas y engaños del análisis automático de datos

De acuerdo con una encuesta de Xplenty, el tiempo medio que dedican los científicos de datos sólo en depurar los datos antes de analizarlos ocupa entre el 50 y el 90% de su tiempo (TICbeat, 9/08/2016). Por esta razón muchas compañías optan por herramientas de inteligencia artificial para realizar esta tarea. Pero si bien los algoritmos que emplea la IA responden bien en términos binarios o de clasificación entre “blanco-negro”, el trabajador humano es el único capaz de trabajar con elementos que se mueven en “grises” o no son tan evidentes. Se trata aquí de entrenar la IA para que clasifique correctamente los datos y es una primera fuente de distorsión.

Sin embargo, se pretende que es posible evitar la intervención humana y sus sesgos gracias a las técnicas de análisis más avanzadas como el "aprendizaje profundo" de la inteligencia artificial. Se pretende que estas técnicas pueden ser utilizadas para "hacer predicciones muy precisas" incluso sin tener conocimiento experto. Así, desde hace varios años, Amazon Web Services ofrece un servicio de Machine Learning dirigido a "democratizar absolutamente el acceso a la hasta ahora cara y compleja tecnología analítica, ya que, aseveran desde la compañía, su uso no requiere ser un experto en estadística, en análisis de datos o en machine learning" (TICbeat, 10/04/2015). 

En 2015 el MIT dio a conocer su "Data Science Machine":
"La necesidad de intervención humana puede haberse visto superada gracias a un nuevo sistema desarrollado por ingenieros del Instituto Tecnológico de Massachusetts (MIT por sus siglas en inglés) al que han bautizado Data Science Machine o DSM. Se trata de un software capaz de encontrar patrones en las relaciones entre los datos y realizar predicciones a partir de las mismas mejor que la mayoría de los humanos y en un periodo de tiempo mucho menor." (El País, 26/11/2015) 
El MIT siguió perfeccionando su técnica, más conocida ahora como  "aprendizaje profundo" (deep learning) automático. Recurre a técnicas de comparación y a la estadística para identificar automáticamente patrones en los datos (pero estos patrones pueden ser totalmente inútiles como veremos más adelante). El aprendizaje profundo representa una manera fundamentalmente diferente de programar computadoras. "Es un problema que ya es relevante, y va a ser mucho más relevante en el futuro", dice Tommi Jaakkola, profesor del MIT que trabaja en estas aplicaciones (MIT Technologya Review, 12/04/2017). Lo que confirma un estudio elaborado por Gartner, que predice que en el 2019 el Deep Learning será la tecnología estrella que se impondrá a la inteligencia artificial (PC World en Español, 21/09/2017). 

Pero el aprendizaje automático no dirigido es un espejismo. 
"El Deep Learning necesita muchos conocimientos y ayuda humana. Gran cantidad de datos. Como mínimo 100.000. Esa es la cifra que ha dado Jeff Dean, Google Senior Fellow y líder de Google Brain, en una charla en el escenario del VB Summit 2017 en Berkeley, California. Los humanos continúan siendo necesarios: para etiquetar los ejemplos y escribir algo de procesamiento de datos para producir el dataset que luego se utilizará y reglas que permitan extraer los patrones que interesan." (Genbeta, 24/10/2017)
Y Karen Hao, del mismo MIT, advierte sobre la dificultad de evitar la introducción de sesgos en el análisis "automático". La introducción del sesgo no siempre es obvia durante la construcción de un modelo, requerido como base de partida. Muchas de las prácticas estándar en aprendizaje profundo no están diseñadas teniendo en cuenta tal detección de sesgos. Los problemas son múltiples: incógnitas desconocidas (como las diferentes interpretación de ciertos conceptos en diferentes lugares, por ejemplo), procesos imperfectos, desconocimiento del contexto social, y falta de definiciones imparciales. El sesgo puede aparecer mucho antes de que se recopilen los datos, así como en muchas otras etapas del proceso de aprendizaje profundo: 
1. El marco el problema. Lo primero que hacen los científicos informáticos cuando crean un modelo de aprendizaje profundo es decidir qué es lo que realmente quieren lograr. 
2. La recolección de los datos: o los datos recopilados no son representativos de la realidad, o reflejan prejuicios existentes. 
3. La preparación de los datos: es posible introducir sesgos durante la etapa de preparación de los datos, lo que implica seleccionar qué atributos se desea que el algoritmo considere. (MIT Technology Reviews, 5/02/2019)
El premio Nobel Richard Feynman ha demostrado el grave problema asociado al uso de este tipo de análisis para hacer predicciones sobre la base del descubrimiento de patrones. Feynman muestra que el análisis de datos masivos para detectar patrones sin ninguna idea preconcebida de lo que uno busca, es el talón de Aquiles de los estudios basados en el análisis de datos masivos. Encontrar algo inusual o sorprendente después de que ya haya ocurrido no es inusual ni sorprendente. Es seguro que se encontrarán patrones, y es probable que sean engañosos, absurdos o algo peor. Cuando miramos hacia atrás en el tiempo a cualquier grupo de cosas, podemos encontrar siempre algunas características comunes, por lo que encontrarlas no prueba nada en absoluto ni permite hacer predicciones.
"En 2011, Google creó un programa de inteligencia artificial llamado Google Flu que utilizaba consultas de búsqueda para predecir los brotes de gripe. El programa de minería de datos de Google examinó 50 millones de consultas de búsqueda e identificó las 45 que estaban más estrechamente relacionadas con la incidencia de la gripe. Es otro ejemplo más de la trampa de extracción de datos: un estudio válido especificaría las palabras clave de antemano. Después de emitir su informe, Google Flu sobreestimó el número de casos de gripe durante 100 de las siguientes 108 semanas, en un promedio erróneo de casi el 100 por ciento. Google Flu ya no hace predicciones de gripe.
Un comercio de Internet pensó que podría aumentar sus ingresos cambiando el color de su página web azul tradicional a un color diferente. Después de varias semanas de pruebas, la compañía encontró un resultado estadísticamente significativo: al parecer, Inglaterra ama el verde azulado. [...] Al final resultó que, cuando el color de la página web de Inglaterra se cambió a verde azulado, los ingresos cayeron." (G.Smith, Wired, 11/01/2019)
¡Se podrían comparar los precios del Bitcoin a lo largo de su historia con una guía telefónica y se encontrarían correlaciones! "Una buena investigación comienza con una idea clara de lo que uno está buscando y espera encontrar. La minería de datos solo busca patrones e inevitablemente encuentra algunos." ¡Y estos son totalmente inútiles! "Encontrar un patrón inusual en Big Data no es más convincente (o útil) que encontrar una matrícula inusual fuera del aula de Feynman." (ibidem). "No se trata de obtener bases de datos al por mayor y luego ver qué es lo que se encuentra dentro de ese cúmulo de información. Eso es como buscar una aguja en un pajar sin saber que se busca una aguja." (Xataka, 6/02/2019).

Manejarse correctamente en el ámbito del análisis de big data puede ser tan complicado como subir por la torre de Pisa sin hacerla caer.

Referencias
Barbuzano, J.: "El ‘big data’ ya no necesita a los humanos", El País, 269/11/2015.  [Una afirmación claramente errónea]
Castillo, T.: "El Deep Learning necesita 100.000 ejemplos para funcionar y ayuda de humanos", Genbeta, 24/10/2017.
Hao, K.: "This is how AI bias really happens—and why it’s so hard to fix", MIT Technology Reviews, 5/02/2019.
Macías, E.: "Amazon democratiza la generación de modelos predictivos con Machine Learning", TICbeat, 10/04/2015.
Smith, G.: "The Exaggerated Promise of So-Called Unbiased Data Mining", Wired, 11/01/2019.