El tema de los "Big Data" ha invadido ampliamente las publicaciones especializadas relativas a internet y a la informática "en la nube". Pero ya no se trata solamente de hablar de la acumulación de datos recogidos principalmente a partir de las actividades y datos personales de los usuarios de la red, en beneficio de las grandes empresas de la propia internet, sino cada vez más de los servicios derivados y de los beneficios que pueden ofrecer a otras empresas (y a las personas). Incluso ha surgido un enfoque alternativo que nos parece muy prometedor, el de los "rich data", aunque es probable que no les guste a los "grandes" (que ya no harían, quizás, tanto "negocio" con nuestros datos).
1. ¿Big Data para todos?
Uno de los problemas de los Big Data es la dificultad de su manejo. Los "grandes", como Google y Facebook tienen enormes centros de datos, supercomputadores y departamentos especializados que utilizan cierto tipo de inteligencia artificial para extraer información útil. Muy pocas empresas pueden darse este lujo. De ahí también que otros poderosos, como IBM, Microsoft, Google y Amazon, ofrecen este tipo de servicio en su "nube" (Ver post del 14/11).
Pero aún así no es fácil utilizarlos. Las empresas deben contar con especialistas en la gestión de este tipo de sistema, tanto para ingresar los datos (generalmente en una forma no compatible con los modelos habituales de bases de datos) como para dirigir los procesos a realizar (generalmente mediante programación paralela, algo muy diferente de la programación clásica) e interpretar los resultados. Sin embargo, se ha ido tomando consciencia de esta dificultad y están empezando a aparecer algunas propuestas para facilitar las operaciones.
Así, como ya habíamos mecionado, Microsoft ha lanzado un servicio en la nube llamado Azure Machine Learning (AzureML), un sistema de aprendizaje Automático (ML) que permite analizar los big data para reconocer patrones y extraer valor. Ofrece una interfaz tipo web de arrastrar y soltar para colocar fácilmente las piezas del rompecabezas y extraer información sobre la base de conjuntos de datos complejos. (Evenbrite.ca, 13/11/2014).
También están surgiendo servicios más puntuales como el de SocialBro, que acaba de lanzó “Monitoring”, una nueva herramienta de minería de datos de Twitter que tiene como objetivo identificar tendencias de mercado, comportamientos de los consumidores y oportunidades de negocio. La herramienta (de pago) estará disponible para todos los usuarios y hará posible obtener datos de Twitter combinando hashtags, menciones y palabras clave, obteniendo datos demográficos importantes (género, idioma o localización) así como sentimiento de los tuits. Aquí imágenes de resultados. (WwwhatsNew, 10/12/2014)
Apple e IBM, por su parte, han anunciado la primera oleada de apps para dispositivos iOS conocidas como soluciones IBM MobileFirst. Se trata de una nueva categoría de apps y servicios basados en la nube que acercan las herramientas de análisis y Big Data de IBM a los usuarios de iPhone y iPad de las empresas. Ambas compañías afirman que las primeras apps diseñadas bajo estas soluciones ya están siendo usadas por Citi, Air Canada, Sprint y Banorte. (MacWorld, 10/12/2014). En realidad, no hablan del ingreso de datos, sino del uso, es decir de la consulta de los resultados.
Para ayudar a hacer progresos en este ámbito, el profesor Zoubin Ghahramani y su grupo de la Universidad de Cambridge recibió un premio "Google Focused Research Award" en apoyo a su proyecto "The Automatic Statistician". Hasta el momento, el proyecto ha sido mayormente centrado en la búsqueda de tendencias en datos de series de tiempo, descubrir automáticamente regularidades e irregularidades, etc. Recurre para ello a modelos estadísticos no paramétricos basados en procesos de Gauss (Google Research Blog, 2/12/2014).
Aunque el objetivo declarado de este proyecto es "construir una inteligencia artificial (IA) para la ciencia de datos", éste es un ejemplo de que, para explotar los Big Data, no se requieren realmente aplicaciones de inteligencia artificial. (Ver nota al final *)
2. Smart Data
"Big data is out, small, smart data is in" dice David Lavenda, VP Product Strategy de Harmon.ie, un proveedor de productos de apoyo móvil (Cmswire.com, 2/12/2014). Los "Smart Data" (datos inteligentes) son información entregada para extender nuestros sentidos humanos y conocimiento para que se apliquen a la evaluación y decisión en torno a respuestas a dar, combinados con los Big Data para garantizar que podemos actuar sobre la base de un conocimiento completo. Los Smart Data "crean personas empoderadas, o personas inteligentes, y al hacer ésto las hace igualmente 'conscientes' de la necesidad de más datos provenientes de los recursos de Big Data" (Andy Mulholland: "Internet of Things; Requires Big Data to be turned upside down to become Smart Data", nov. 2014). Los Smart Data son datos en su contexto, en las "manos correctas" y relevantes para algunas cuestiones, actividades o problemas. Una vez que los datos se transforman, se procesan y se entregan a la persona adecuada en el negocio que los necesitan para hacer algo de valor, pueden ser una parte importante del modelo de detección y respuesta. Pero el proceso de transformación no es ni fácil ni barato. (Michael Fauscette, "Transforming Data Into Action", sept.2014).
No son, por lo tanto, una solución frente a la dificultad de manejar los Big Data, sino un mejor producto del procesamiento de los mismos.
3. Small Data
La definición más simple de "Small Data" (datos pequeños) es que se trata de un conjunto de datos que puede caber en un ordenador o dispositivo personal. Pero no basta con considerar el tamaño del conjunto de datos. Hay que considerar también otras dimensiones. Una de ellas es el proceso de tomar grandes conjuntos de datos y distribuirlos a los nodos que harán posible utilizarlos en dispositivos locales para alguna actividad de negocios. Implica un modelo de computación distribuida del procesamiento de datos y la democratisación de la información acumulada, convirtiendo los Big Data en información derivada, procesable localmente, tal vez incluso mezclando varias fuentes y, lo más probable, visualizándolos de alguna manera (interfaz gráfica). Deben ser presentados en forma oportuna, pertinente, organizada y empaquetada para facilitar los procesos de toma de decisión rutinarios. (Michael Fauscette, "Transforming Data Into Action", oct.2014).
Aquí sí surge una pista para abordar los Big Data de otra manera: en lugar de procesar la masa, realicemos un proceso de selección en función de algún criterio inicial (o varios), considerando la utilidad para los futuros usuarios, extraigamos estos datos y procesemos el subconjunto obtenido, lo cual es mucho más fácil (Existen desde hace tiempo herramientas de "minería de datos", bien conocidas. Y hasta se podrían trabajar, eventualmente, con planillas Excel). El problema se reduce (aunque puede no ser fácil) a elegir los "datos correctos" para las "personas correctas" (the "right" data for the "right" person). Dice Fauscette que con esta manera de trabajar es mucho más probable que las empresas contesten mejor a las expectativas de sus clientes.
4. Rich Data
El concepto de "Rich Data" fue introducido por Tim Berners-Lee, el procer de la web. Son datos que "empoderarían" al individuo. Según Tim Berners-Lee: "Si un computador recopiló datos de su médico, de su compañía de tarjeta de crédito, de su casa inteligente, de sus redes sociales, y así sucesivamente, podría obtener una visión real de su vida". Éstos serían "Rich Data" (datos ricos o enriquecidos), que no tienen porque ser acumulados en otra parte sino en su propio PC, ni pasar a pertenecer a grandes empresas. En lugar de recoger todos los datos en un solo lugar (estas empresas) antes de ser utilizados, se pueden mantener en muchos pequeños conjuntos de datos para cada persona y situación. Pero lo más importante es que esta unión de conjuntos de datos debería ocurrir en el punto y momento de una necesidad y de forma dinámica. Este modelo de "segmentación individual" de hecho ya es conocido y existen herramientas para utilizarlo. Su principal ventaja es que solo se necesita un pequeño número de observaciones para responder a las necesidades de un individuo, lo cual es fácil de procesar. Y una persona no necesita en absoluto información acerca de los datos de otras personas: no le son de ninguna utilidad. Es de esperar que aparezcan aplicaciones para que podamos efectivamente hacernos cargos de este modo de nuestros propios datos.
Esta visión se ha de enlazar con otra: la de la propiedad de los datos individuales. Las empresas que recolectan nuestros datos no son legítimos propietarios de los mismos. Y se ha planteado que deberían pagar por ellos. Por cierto, en muchos casos les pagamos sus servicios aparentemente gratuitos entregándoles nuestros datos. Éste es un modelo de negocio que sería difícil cambiar. Pero es legítimo discutir los límites del mismo y es uno de los temas que abordan las autoridades de varios países como, en particular, la Comisión Europea.
_____________
* Nota: IA, aprendizaje automático e inteligencia mecánica
Nos encontramos aquí, justamente, en un campo en que parece inevitable introducir nuevas distinciones, como ya lo hacen diversos especialistas. Hace algún tiempo, se empezó a distinguir entre "IA dura" e "IA blanda", la primera apuntando a lograr que una máquina tenga éxito en el test de Turing (tener respuestas indistinguibles de un ser humano en un diálogo a distancia) y la segunda a "aprender" a partir de la acumulación de información y extraer de ello conclusiones útiles. Así, en la "IA blanda" existe un componente de aprendizaje automático (“machine learning”). Pero también existen aplicaciones de aprendizaje automático que no implican aspectos de IA. Por ello, Shivon Zilis propone hablar de "inteligencia mecánica" (“machine intelligence”). Es la que encontramos en aplicaciones como SIRI, el reconocimiento de caras, las recomendaciones de compra, etc. Es también la que más interesa por ahora, para efectos comerciales, a los "grandes" de internet. Y donde es probable que se multipliquen nuevos productos, más ecónomicos y de más fácil uso para otras empresas (menores). (Shivonzilis.com, 10/12/2014).