PathMBA Vault

Government policy and regulation

No existen los datos anónimos

por Scott Berinato

FEB15_09_hbr_nguyen_img_046

Foto de Andrew Nguyen

Hace aproximadamente una década, un hacker me dijo rotundamente: «Suponga que todas las tarjetas de su cartera están comprometidas y proceda en consecuencia». Tenía razón. Los consumidores se han adaptado a un ritmo constante de notificaciones de violaciones de datos, cargos aleatorios con tarjetas de crédito y sustituciones inesperadas de tarjetas. A partir de esto, ha surgido un complejo industrial de privacidad: tecnología, servicios y políticas, todos ellos destinados a tratar de proteger los datos y, al mismo tiempo, permitir que fluyan con la suficiente libertad como para que el bazar electrónico moderno siga prosperando. Una estrategia clave en esto ha sido «limpiar» los datos, lo que significa eliminar la información de identificación personal (PII) para que, aunque alguien accediera a ella, no pudiera relacionarla con una persona.

Demasiado para todo eso.

En un artículo publicado en Science la semana pasada, el científico del MIT Yves-Alexandre de Montjoye demuestra que se puede aplicar ingeniería inversa a los datos anónimos de las tarjetas de crédito para identificar las transacciones de las personas, un hallazgo que pone en tela de juicio muchas de las políticas desarrolladas para proteger a los consumidores y obliga a los científicos de datos a reconsiderar las políticas y la ética que guían el uso de grandes conjuntos de datos.

De Montjoye y sus colegas examinaron tres meses de transacciones con tarjetas de crédito de 1,1 millones de personas, a todas las cuales se les había eliminado cualquier información de identificación personal. Aun así, el 90% de las veces se las arregló para identificar a las personas en el conjunto de datos utilizando la fecha y la ubicación de solo cuatro de sus transacciones. Al añadir el conocimiento del precio de las transacciones, aumentó la «reidentificación» (el término académico para detectar a una persona en los datos anonimizados) al 94%. Además, era más fácil volver a identificar a las mujeres que a los hombres y la capacidad de reidentificación aumentaba con los ingresos del consumidor.

Que quede claro: la reidentificación significa que los investigadores podrían identificar todas las transacciones que pertenecen a una persona, pero De Montjoye no intentó decir a qué persona. Por ejemplo, si quisiera saber mi transacciones, tendría que tomar medidas adicionales para cotejar algo que sabía sobre mí con sus datos. Si, por ejemplo, publico en Facebook sobre una visita a un restaurante, eso podría ser la clave para conectarme con toda una cartera de transacciones anónimas. «No intentamos ponerle nombres», dice de Montjoye, «pero básicamente sabemos lo que necesita para hacerlo».

Es más, de Montjoye demostró que incluso los datos «groseros» proporcionan «poco anonimato». Redujo la «resolución» de sus datos analizando únicamente las áreas en las que se realizaban las compras, no tiendas específicas, y los períodos de 15 días en los que se producían, no fechas específicas. También amplió la gama de precios de las compras para que las transacciones que antes se clasificaban entre 5 y 16 dólares ahora se pusieran en una papelera más del doble de grande, que oscilaba entre 5 y 34 dólares. Incluso con datos de baja resolución como estos, podría obtener cuatro transacciones y volver a identificar a las personas el 15% de las veces. Al observar 10 de esos puntos de datos, podría, sorprendentemente, volver a identificar a las personas el 80% de las veces.

No es la primera vez que De Montjoye hace el papel de aguafiestas de la privacidad. En obra anterior Hizo un truco similar al volver a identificar a las personas utilizando datos anónimos de ubicación de teléfonos móviles. (Otros han realizado trucos de salón similares con otros conjuntos de datos.) Y aunque aún no ha probado otros tipos de conjuntos de datos grandes, como los historiales de navegación, cree que «parece probable» que también sean susceptibles de reidentificarse.

Las implicaciones de la obra de De Montjoye son profundas. En términos generales, significa que el anonimato no garantiza la privacidad, lo que podría hacer que muchas de las leyes y reglamentos mundiales en torno a la privacidad de los consumidores quedaran sin efecto. Garantizar el anonimato (es decir, eliminar la información de identificación personal) a cambio de poder recopilar y utilizar datos libremente (una política de marketing básica para todo el mundo, desde los fabricantes de aplicaciones hasta las compañías de tarjetas de crédito) podría no ser aplicable si se puede hackear el anonimato. La anonimización, tal como la definimos hoy en día, dice De Montjoye, es «inadecuada» y, en última instancia, está condenada al fracaso con los metadatos de gran tamaño, el tipo de macrodatos disponibles públicamente que están aprovechando tantas empresas. (No utilizará el término «macrodatos», pero lo que él describe como «conjuntos de datos de metadatos» está en gran medida en línea con ese concepto).

Una respuesta obvia a este problema, que se está explorando en Europa, es hacer que cualquiera que quiera utilizar esos datos demuestre que ha hecho imposible identificar a las personas en el conjunto de datos. Pero si de Montjoye puede identificar a cuatro de cada cinco personas a partir de datos anónimos con solo una idea general de dónde estaban, cuándo estuvieron allí y cuánto gastaron, es difícil imaginar que alguien demuestre sin lugar a dudas que ha anonimizado sus datos. Ese tipo de mandato, entonces, podría, en última instancia, prohibir el uso y el intercambio de datos.

Sería un resultado terrible dada la potencia de los tipos de grandes conjuntos de datos que De Montjoye está poniendo a prueba. «El potencial positivo que ofrecen este tipo de datos es demasiado grande como para cerrarlo», afirma, y cita varios casos: los datos móviles se pueden utilizar en la lucha contra la propagación de enfermedades. Los datos de tráfico pueden permitir sistemas de tráfico más inteligentes que reduzcan significativamente las emisiones. El seguimiento de los datos económicos puede ayudar a identificar las oportunidades de innovación y crecimiento.

Un modelo que de Montjoye cita es «PII 2.0» (PDF) propuesto por Paul M. Schwarz y Daniel Solove. Actualmente, la información de identificación personal es binaria y la información es de identificación personal o no. Schwarz y Solove proponen un espectro desde esos dos extremos, con una tercera categoría en el medio, en la que la identificación es posible pero no probable, y luego un reglamento que aborde cada tipo por separado.

de Montjoye también mira el» Nueva oferta de datos» propuesto por Sandy Pentland, del MIT (coautora del artículo de De Montjoye), en el que los derechos de propiedad de los datos pasan al consumidor.

«Nuestro objetivo es iniciar un debate, no cerrar el uso de este tipo de datos», afirma de Montjoye. «Este es un riesgo potencial con estos conjuntos de datos tan grandes; la anonimización es limitada, pero los posibles usos de estos datos son fantásticos. Busquemos un modelo mejor. Busquemos un equilibrio entre la privacidad y la utilidad».