19 de septiembre de 2019

Acumular y analizar datos sin afectar la privacidad

La inquietud - si no el disgusto - por la recopilación de datos personales por las empresas ha ido en aumento especialmente en los dos últimos años. La Comisión Europeo tomó cartas en el asunto y estableció un reglamento de protección de datos (GDPR). Pero también hay expertos que han abordado la problemática buscando satisfacer tanto los usuarios como las empresas.

Google también buscó este tipo de solución y liberó una librería de "privacidad diferencial", sistema que permite acumular y procesar más datos personales de todo tipo, sin poder siquiera identificar cuales son esos datos concretos corresponden a una persona en particular. Para ello no basta encriptar los datos de identificación, como lo demostró en 2007 un intento de Netflix de usar esta fórmula. Es necesario recurrir a un método más complejo, que consiste en "añadir más ruido estadístico a la respuesta cuanto más específica es la pregunta que se hace a la base de datos". Pero, como consecuencia,  "el ruido será mayor cuanto menor sea el tamaño de esta, y por tanto los resultados tenderán progresivamente a ser más y más inservibles a nivel práctico". (Hipertextual, 16/09/2019)

Esto significa que se pueden mantener las bondades de un análisis sobre grandes conjuntos (como todos los registrados en una base de datos masiva) pero es totalmente inútil para grupos reducidos o minorías poco numerosas. A pesar de ello, según comentan en Google, puede usarse con bases de datos de apenas un centenar de individuos porque "las grandes tendencias poblacionales se mantienen completamente".

El método "tradicional" consiste en utilizar bases relacionales, que se constituyen de diversas tables relacionadas entre sí por algún identificador. Se puede tener una tabla con la identidad de los usuarios, cada uno con un código único-  independiente de los demás datos -, y otra tabla con todos los demás datos (gustos, opciones, acciones, etc.) enlazada a la primera con dichos códigos, y luego se pueden realizar todas las operaciones estadísticas sobre la segunda tabla.´Esto, sin embargo, puede plantear otros problemas, como los de seguimiento individual, que puede ser importante para casos como las redes sociales y los servicios que dependen de la personalización. La identificación con fines de personalización es también un asunto clave para los medios de prensa que se ven forzados a financiarse mediante muros de pago: requieren saber qué es lo que atrae a cada lector para que se suscriban y mantengan su suscripción: no basta ya con contar las páginas vistas (cfr. D.Muñoz en Medium, 25/06/2019).

De cualquier modo, la encriptación de los datos de identidad es indispensable. La compañía de seguridad informática vpnMento reveló hace poco que la mayoría de los datos personales de casi todos los ecuatorianos fueron expuestos porque el servidor que contenía las bases de datos carecía de una protección adecuada. Pero, además, todos los datos podían ser leídos y relacionados, incluyendo nombres, domicilios, información financiera (los saldos de las cuentas de los clientes de un gran banco ecuatoriano) y datos como historial educativo y registro de trabajo. (BBC, 16/09/2019)

Pero no olvidemos que dejamos muchos rastros en Internet. Javier Lacort demostró hace unos días en Xataka lo fácil que es encontrar muchos datos personales de cualquiera incluso a partir de un mero número telefónico (Xataka, 15/09/2019).

5 de septiembre de 2019

La nube se fragmenta

No solo existen varias grandes plataformas que ofrecen su "nube" para servir a las empresas, permitiendo que estas se vean liberadas de los problemas y costos de desarrollar sus propios centros de datos (e instalar o renovar costosos equipos). Las mismas plataformas que ofrecen sus servicios "en la nube" se ven ahora obligadas a fragmentar esta nube, multiplicando sus centros de datos a distintos niveles (lo que explica, por ejemplo, que Amazon y Google instalen centros de datos en numerosos países). La tendencia es cada vez más a constituir sitios "en el borde de la red", es decir lo más cerca posible de los usuarios. Con ello, la latencia que se obtiene es menor, aumenta la fiabilidad, y la seguridad de la red inalámbrica mejora considerablemente. Ya existen  128.233 sitios en el borde de la red y se espera que crezcan a 418.803 en el 2025, lo cual representa un aumento del 226%. (DiarioTI, 15/08/2019)

Estos centros de datos locales son especialmente necesarios para "los casos de uso donde la cantidad de datos hace que no sea práctico transferirlos a través de la red, directamente a la nube, o desde la nube al punto de uso, debido a problemas relacionados con el ancho de banda, el volumen de datos o el costo." (ibidem) Las "ciudades inteligentes" y los gobiernos son casos típicos de ello, como también la entrega de contenido de alta resolución y la realidad virtual, para los cuales se espera un importe auge de aquí a 2025. También lo requerirán aplicaciones cruciales como las de los vehículos autónomos y la atención médica digital. La red 5G será fundamental para esto. Las expectativas en Latinoamérica para soportar las aplicaciones con uso intensivo de datos en el borde de la red fueron de 54% en un estudio de Vertiv. (ibidem)

En forma complementaria, se trata de desarrollar aplicaciones altamente compactas y eficientes que puedan operar con los datos en los equipos de los usuarios, descargando así los servidores de algunas tareas, permitiendo que se dediquen más eficientemente al envío y recepción de datos y repartiendo mejor el consumo de energía. Esto implica una mayor automatización, el desarrollo de una inteligencia artificial adecuada y una nueva combinación de hardware y software en distintos niveles: con un centro de datos de nube masivo, luego centros de datos de nube regionales, luego centros de datos de nube en el borde y algunas funciones a nivel de usuario. Se necesita un enfoque totalmente nuevo: para el almacenamiento, los servidores, la red y el sistema en su conjunto. (DiarioTI, 31/08/2019) ¡Una difícil combinación de jerarquía y descentralización!

También se trabaja en hacer más eficiente el reparto del trabajo en los servidores, algo altamente complejo dado que miles de usuarios pueden solicitar simultáneamente operaciones muy diferentes. para ello se recurre a la inteligencia artificial y el MIT ha desarrollo un modelo de aprendizaje automático de prueba y error que ayuda en las decisiones de programación de cargas de trabajo específicas en grupos de servidores específicos 30% más rápido que los mejores algoritmos de programación manuscrita. (IntelDig, 4/09/2019)