24 de diciembre de 2015

Big Data: Utilidad e inutilidad para investigadores

La BSA (Business Software Association), promotora del desarrollo de software a nivel mundial, encabeza una campaña de marketing para incentivar el uso del análisis Big Data, mostrando "sus potencialidades y en qué áreas ya ha comenzado a marcar diferencias". "La innovación en software continua encendiendo avances sin precedentes que transforman el mundo a nuestro alrededor, empoderándonos como individuos y haciendo crecer nuestras economías", declara. Y lo justifica en un informe denominado "¿Por qué son tan importantes los datos?", disponible para descargar gratis desde su página web, donde muestra cómo, mediante el seguimiento de más de 1.000 datos por segundo, se han logrado importantes avances en la medicina infantil, disminuir la congestión vehicular, aumentar el rendimiento de las cosechas desde Iowa a la India, desarrollar edificios de bajo consumo energético, ciudades inteligentes y mejorar la planificación de las trayectorias de vuelo en los aviones... todos casos donde el análisis semántico parece muy poco relevante. (FayerWayer, 11/11/2015)

Según el informe de OBS Business School de 2014, durante ese año el 73% de las organizaciones mundiales invirtieron en esta nueva área de negocio; especialmente los medios de comunicación y las tecnológicas (Hipertextual, 20/11/2015). Gartner también puso el aprendizaje de máquina en lo alto de los nuevos negocios y Lukas Biewald asegura que puede dar a cada empresa una ventaja competitiva pero que no es posible sin un adecuado entrenamiento (ComputerWorld, 20/10/2015). Se han multiplicado las start-up que ofrecen servicios de análisis de grandes datos (como QDAMiner, MetaMind, Dato y MonkeyLearn). Según Startupxplore, son 93 los proyectos dedicados a la gestión de este tipo de datos (Hipertextual, 20/11/2015). 

Pero ¿el análisis de Big Data le puede servir a un investigador en comunicaciones?
Según los propulsores de las aplicaciones de analítica Big Data, el análisis de texto descubre en éstos el "qué", el "quién", el "dónde" y el "cuándo" de la conversación, lo cual requiere -en realidad- escasa capacidad semántica. Pero también permitiría extraer el "cómo" la gente se siente y "por qué" la conversación está sucediendo. Y ésto permitiría que las conversaciones sean clasificadas y los temas de discusión identificados, lo que el programa de análisis automático debe lograr lo mejor posible, para así convertir los datos no estructurados en datos estructurados y permitir a las empresas "escuchar" globalmente las transmisiones que captan. 
"El análisis de texto puede ser utilizado para desarrollar una mejor comprensión de los gustos, disgustos y motivaciones del cliente. Cambiar los incentivos del programa de fidelidad para que coincidan con los deseos de los clientes puede mejorar las ventas y aumentar la fidelización de clientes" dice Jeff Catlin, CEO de Lexalytic, una empresa que provee este tipo de servicios. (Inside Big Data, 5/06/2015)
Ha quedado demostrado, sin embargo, que los actuales sistemas de análisis automático de textos en Big Data están lejos de ser realmente útiles como métodos de análisis de contenido. Estos sistemas (salvo quizás Watson) no tienen aún ninguna capacidad de crear categorías conceptuales a partir de lo leído. Solo pueden confeccionar estadísticas de frecuencia de las palabras y eventualmente de conexiones entre algunas en una misma oración ("segmentos"), con lo cual los resultados entregados siguen siendo poco útiles y sin justificación alguna en el caso de los "segmentos" computados (siendo los algoritmos desconocidos y no revelados). Para obtener algo más útil, se requiere definir palabras clave, lo cual obliga al usuario a leer al menos parte de los textos... e introducir desviaciones. "No vamos a poder obtener ninguna información útil a no ser que codifiquemos de forma manual, al menos mínimamente, los textos a partir de un tesauro con su estructura jerárquica y correspondencias que, también, hemos de crear nosotros mismos. Y la pregunta es, ¿de qué nos sirve el software y Big Data entonces?" advierte F. López-Cantos en la Revista Latina de Comunicación Social (dic.2015). ¡Lo que se espera de la "inteligencia artificial" es justamente que la máquina nos evite este tedioso proceso! 

Hice una posible excepción en el caso de Watson, el supercomputador de IBM que parece ser el más avanzado en materia de "comprensión" artificial. Es posible que Facebook, con sus actuales recursos de inteligencia de máquina, se le acerque. Es, al menos, lo que pretende, según las últimas noticias: anunció su sistema de análisis "Topic Data" que utiliza el análisis de texto para revelar lo que las audiencias están diciendo en su red sobre eventos, marcas, sujetos y actividades. Y lo ofrece a los vendedores, que pueden utilizarlo (arrendar el servicio) para "tomar mejores decisiones sobre sus productos y sus actividades" (Facebook, 10/03/2015).

El mismo Likas Biewald admite que la analítica Big Data funciona bien en el 80 por ciento de los casos y mal en el 20 por ciento, la reducción de la tasa de error del 20 por ciento siendo difícil, si no imposible.

Fuentes:
López-Cantos, F.: La investigación en comunicación con metodología BigData, Revista Latina de Comunicación Social, 70, pp.878 a 890.
Biewald, L.: How machine learning will affect your business, ComputerWorld, 20/10/2015.
Catlin, J.: Text Analytics: The Next Generation of Big Data, Inside Big data, 5/06/2015.
Rodríguez, A.: El Big Data ya no es solo cosa de los grandes, Hipertextual, 20/11/2015.
Asigra: What is Big Data (infografía)

No hay comentarios:

Publicar un comentario

No se reciben comentarios.

Nota: solo los miembros de este blog pueden publicar comentarios.