19 de septiembre de 2019

Acumular y analizar datos sin afectar la privacidad

La inquietud - si no el disgusto - por la recopilación de datos personales por las empresas ha ido en aumento especialmente en los dos últimos años. La Comisión Europeo tomó cartas en el asunto y estableció un reglamento de protección de datos (GDPR). Pero también hay expertos que han abordado la problemática buscando satisfacer tanto los usuarios como las empresas.

Google también buscó este tipo de solución y liberó una librería de "privacidad diferencial", sistema que permite acumular y procesar más datos personales de todo tipo, sin poder siquiera identificar cuales son esos datos concretos corresponden a una persona en particular. Para ello no basta encriptar los datos de identificación, como lo demostró en 2007 un intento de Netflix de usar esta fórmula. Es necesario recurrir a un método más complejo, que consiste en "añadir más ruido estadístico a la respuesta cuanto más específica es la pregunta que se hace a la base de datos". Pero, como consecuencia,  "el ruido será mayor cuanto menor sea el tamaño de esta, y por tanto los resultados tenderán progresivamente a ser más y más inservibles a nivel práctico". (Hipertextual, 16/09/2019)

Esto significa que se pueden mantener las bondades de un análisis sobre grandes conjuntos (como todos los registrados en una base de datos masiva) pero es totalmente inútil para grupos reducidos o minorías poco numerosas. A pesar de ello, según comentan en Google, puede usarse con bases de datos de apenas un centenar de individuos porque "las grandes tendencias poblacionales se mantienen completamente".

El método "tradicional" consiste en utilizar bases relacionales, que se constituyen de diversas tables relacionadas entre sí por algún identificador. Se puede tener una tabla con la identidad de los usuarios, cada uno con un código único-  independiente de los demás datos -, y otra tabla con todos los demás datos (gustos, opciones, acciones, etc.) enlazada a la primera con dichos códigos, y luego se pueden realizar todas las operaciones estadísticas sobre la segunda tabla.´Esto, sin embargo, puede plantear otros problemas, como los de seguimiento individual, que puede ser importante para casos como las redes sociales y los servicios que dependen de la personalización. La identificación con fines de personalización es también un asunto clave para los medios de prensa que se ven forzados a financiarse mediante muros de pago: requieren saber qué es lo que atrae a cada lector para que se suscriban y mantengan su suscripción: no basta ya con contar las páginas vistas (cfr. D.Muñoz en Medium, 25/06/2019).

De cualquier modo, la encriptación de los datos de identidad es indispensable. La compañía de seguridad informática vpnMento reveló hace poco que la mayoría de los datos personales de casi todos los ecuatorianos fueron expuestos porque el servidor que contenía las bases de datos carecía de una protección adecuada. Pero, además, todos los datos podían ser leídos y relacionados, incluyendo nombres, domicilios, información financiera (los saldos de las cuentas de los clientes de un gran banco ecuatoriano) y datos como historial educativo y registro de trabajo. (BBC, 16/09/2019)

Pero no olvidemos que dejamos muchos rastros en Internet. Javier Lacort demostró hace unos días en Xataka lo fácil que es encontrar muchos datos personales de cualquiera incluso a partir de un mero número telefónico (Xataka, 15/09/2019).

No hay comentarios:

Publicar un comentario

No se reciben comentarios.

Nota: solo los miembros de este blog pueden publicar comentarios.