PathMBA Vault

Data management

Para proteger los datos de los consumidores, no haga todo en la nube

por Sachin Gupta, Panos Moutafis, Matthew J. Schneider

Para proteger los datos de los consumidores, no haga todo en la nube

Al recopilar datos de los consumidores, casi siempre existe un riesgo para la privacidad de los consumidores. La información confidencial podría filtrarse involuntariamente o ser violada por personas malas. Por ejemplo, la violación de datos de Equifax de 2017 comprometió la información personal de 143 millones de consumidores estadounidenses. Las infracciones más pequeñas, de las que puede que se entere o no, se producen todo el tiempo. A medida que las empresas recopilen más datos (y dependan más de sus conocimientos), es probable que la posibilidad de que los datos se vean comprometidos no haga más que aumentar.

Sin embargo, con la arquitectura de datos y los procesos adecuados, estos riesgos se pueden mitigar sustancialmente garantizando que los datos privados se afecten en el menor número de puntos posible. En concreto, las empresas deberían tener en cuenta el potencial de lo que se conoce como computación perimetral. Según este paradigma, los cálculos no se realizan en la nube, sino en dispositivos que se encuentran en el extremo de la red, cerca de donde se generan los datos. Por ejemplo, los cálculos que hacen que el Face ID de Apple funcione se realizan directamente en su iPhone. Como investigadores que estudian la privacidad en el contexto de los negocios, la informática y la estadística, creemos que este enfoque es sensato (y debería utilizarse más), ya que la computación perimetral minimiza la transmisión y la retención de información confidencial en la nube y reduce el riesgo de que caiga en malas manos.

Pero, ¿cómo funciona realmente esta tecnología y cómo pueden implementarla las empresas que no tienen recursos del tamaño de Apple?

Pensemos en una hipotética tienda de vinos que quiera captar los rostros de los consumidores que prueban un vino nuevo para medir si les gusta. Los propietarios de la tienda eligen entre dos tecnologías de vídeo de la competencia: el primer sistema captura horas de vídeo, envía los datos a servidores de terceros, guarda el contenido en una base de datos, procesa las imágenes mediante algoritmos de análisis facial e informa de la información de que el 80% de los consumidores quedaron contentos al probar el vino nuevo. El segundo sistema ejecuta algoritmos de análisis facial en la propia cámara, no almacena ni transmite ninguna grabación de vídeo y reporta la misma información agregada del 80% al minorista de vinos.

El segundo sistema utiliza la computación perimetral para restringir el número de puntos en los que las personas, los servidores, las bases de datos o las interfaces tocan los datos privados. Por lo tanto, reduce las posibilidades de una violación de datos o de un uso no autorizado en el futuro. Solo recopila datos suficientes para tomar una decisión empresarial: ¿Debería la tienda de vinos invertir en publicidad del nuevo vino?

A medida que las empresas se esfuercen por proteger la privacidad de sus clientes, se enfrentarán a situaciones similares a la anterior. Y en muchos casos, habrá una solución de computación perimetral. Esto es lo que necesitan saber.

Privacidad desde el diseño

En 1980, la Organización de Cooperación y Desarrollo Económicos, un foro internacional de 38 países, directrices establecidas para la protección de la privacidad y los flujos transfronterizos de datos personales en sus países miembros con el objetivo de armonizar la legislación nacional de privacidad. Estas directrices, que se basaban en principios como la limitación de la finalidad y la minimización de los datos, se convirtieron en una legislación reciente sobre privacidad de datos, como la Reglamento general de protección de datos (GDPR) en Europa y el Ley de Privacidad del Consumidor de California (CCPA), ambos presentados en 2018.

El auge de la informática perimetral ayuda a las organizaciones a cumplir las directrices de privacidad anteriores al implementar tres opciones de diseño fundamentales. Las opciones de diseño comienzan con la forma de pensar en la recopilación de datos y se extienden hasta el procesamiento real de los datos. Son:

Suficiencia

Una arquitectura de datos consciente debe recopilar y conservar solo la información imprescindible. Los enfoques de recopilación de datos deben diseñarse e implementarse en función de la información deseada (en otras palabras, su propósito debe ser limitado), reduciendo así el número de variables y personas rastreadas, lo que significa que se recopila la cantidad mínima de datos.

En cierto modo, es una idea antigua: en 1922, el innovador estadístico británico R.A. Fisher desarrolló la teoría estadística de la «estadística suficiente», que proporciona toda la información necesaria para obtener la información deseada. (Por ejemplo, el 80% de los consumidores se mostraron contentos al probar el vino nuevo.) La suficiencia mínima va un paso más allá al capturar de la manera más eficiente la información suficiente necesaria para obtener información. En términos generales, el minorista de vinos puede utilizar un dispositivo periférico para realizar análisis faciales en menos consumidores (una muestra más pequeña) y obtener el mismo 80% de información.

Agregación

Para muchas decisiones empresariales no necesitamos información a nivel individual. Al resumir la información a nivel de grupo, se conserva la mayoría de la información necesaria y, al mismo tiempo, se minimiza el riesgo de comprometer los datos privados. Estos datos no personales no suelen estar sujetos a la legislación de protección de datos, como el RGPD o la CCPA.

Alteración

Cuando es fundamental obtener información a nivel personal, se pueden modificar los datos para ocultar la identidad de la persona y, al mismo tiempo, afectar mínimamente a la precisión de la información. Por ejemplo, Apple utiliza una técnica llamada privacidad diferencial local para añadir ruido estadístico a cualquier información que comparta el dispositivo del usuario, de modo que Apple no pueda reproducir los datos verdaderos. En algunas situaciones, la modificación de los datos individuales es obligatoria por ley, como en los estudios clínicos. Las técnicas pueden incluir la pseudoanonimización y llegar a generar datos sintéticos.

Saber cuándo aplicar las herramientas de procesamiento de datos es tan importante como utilizar las herramientas adecuadas. Aplicar la suficiencia, la agregación y la alteración durante la recopilación de datos maximiza la protección y conserva la información más útil. Este enfoque también puede reducir los costes del ciberseguro, el cumplimiento de las normas de protección de datos y una infraestructura más escalable.

La disyuntiva entre la información y la privacidad

Restringir la recopilación y el procesamiento de datos privados al límite no está exento de inconvenientes. Las empresas no tendrán todos los datos de sus consumidores disponibles para volver a realizar nuevos tipos de análisis cuando cambien los objetivos empresariales. Sin embargo, esta es la situación exacta contra la que abogamos para proteger la privacidad de los consumidores.

La información y la privacidad tienen una compensación, es decir, una unidad de aumento de la privacidad requiere cierta pérdida de información. Al priorizar la utilidad de los datos con información útil, la computación perimetral reduce la cantidad de información de un «lago de datos» a los datos suficientes necesarios para tomar la misma decisión empresarial. Este énfasis en encontrar los datos más útiles en lugar de guardar montones de información sin procesar aumenta la privacidad de los consumidores.

Las opciones de diseño que respaldan este enfoque (suficiencia, agregación y alteración) se aplican a los datos estructurados, como los nombres, los correos electrónicos o el número de unidades vendidas, y a los datos no estructurados, como imágenes, vídeos, audio y texto. Para ilustrarlo, supongamos que el minorista de nuestro ejemplo de cata de vinos recibe las opiniones de los consumidores a través de vídeo, audio y texto.

Vídeo

Si el objetivo de la tienda de vinos es entender las reacciones de los consumidores desglosadas por grupos demográficos, no es necesario identificar a los consumidores individuales mediante el reconocimiento facial ni mantener una base de datos biométrica. Uno podría preguntarse: ¿las imágenes que contienen rostros de personas no son datos privados? De hecho, lo son. Y aquí es donde la computación perimetral permite analizar la transmisión de vídeo de forma local (es decir, en la cámara) sin almacenarla permanentemente ni transmitirla a ningún lado. Los modelos de IA están entrenados para extraer en tiempo real la información necesaria, como opiniones positivas y datos demográficos, y descartar todo lo demás. Este es un ejemplo de suficiencia y agregación empleado durante la recopilación de datos.

Audio

En nuestro entorno de degustación de vinos, un análisis de audio puede distinguir entre el habla y el silencio o la música de fondo. También puede revelar la edad de la persona que habla, sus emociones y sus niveles de energía. ¿La gente se entusiasma más después de probar el vino nuevo? Los modelos de IA pueden entender la energía total del altavoz sin saber lo que se ha dicho. Analizan las inflexiones y entonaciones de la voz para revelar el estado mental de una persona. La suficiencia está integrada en las clasificaciones (es decir, el resultado) de la tecnología de IA de forma predeterminada. Al ejecutar estos modelos de forma perimetral y resumir los resultados por grupo demográfico, también se logra la agregación de datos.

Texto

Nuestro minorista de vinos puede utilizar los comentarios textuales de los consumidores sobre el nuevo vino no solo para entender si los consumidores están satisfechos sino, lo que es igual de importante, aprender las palabras que utilizan los consumidores para describir el sabor y el tacto del vino nuevo. Esta información es una aportación inestimable para el desarrollo de la publicidad. En este análisis, no es necesario que los datos estén vinculados a consumidores específicos. En cambio, los comentarios textuales se agregan entre los consumidores y las frecuencias relativas de las palabras clave sobre sabor y sensación de cada tipo de vino se envían a la tienda de vinos. Como alternativa, si se desea información a nivel personal, los comentarios textuales se pueden modificar sintéticamente mediante modelos de generación de lenguaje natural (NLG).

En los ejemplos anteriores, las opciones de diseño de Suficiencia-Agregación y Alteración mejoran la privacidad. Estas ideas también son relevantes para las aplicaciones y los tipos de datos, desde el punto de vista de desbloquear el teléfono, evaluar su salud con dispositivos inteligentes y crear mejores experiencias. Paradójicamente, el uso consciente de la computación perimetral y la IA, que a menudo asusta a la gente, es fundamental para maximizar la protección de la privacidad. Los defensores de la privacidad también promueven la idea de que los consumidores sean propietarios y controlen sus datos personales a través de una plataforma de datos de clientes (CDP). Una arquitectura de datos que conecte el CDP a un dispositivo periférico (piense en los asistentes domésticos activados por voz) puede aumentar aún más la confianza de los consumidores, ya que les proporciona un control y una transparencia totales sobre sus datos.

Sin embargo, este marco es solo una solución parcial a las preocupaciones sobre la privacidad, que se implementará junto con otras prácticas beneficiosas, como el cifrado de datos, la minimización de los privilegios de acceso y la retención de datos. El cifrado se emplea cuando los datos se almacenan de forma permanente y en tránsito. Es un primer paso esencial para minimizar el acceso no autorizado, ya que convierte el conjunto de datos en una caja negra. Sin una llave, la caja negra no tiene valor. Del mismo modo, limitar el acceso a los datos a lo que es necesario conocerlos, contar con políticas claras de retención de datos y proporcionar mecanismos de exclusión reduce el riesgo de filtraciones de datos. A pesar de que las medidas anteriores son una práctica habitual, no todo el mundo las emplea, lo que crea muchos más puntos de contacto en los que se pueden producir violaciones de datos privados. Sea un buen director y consulte con su equipo de TI y con proveedores externos.

***

La privacidad es una opción social y los equipos de liderazgo deben priorizar la utilidad de los datos. Muchas empresas han estado recopilando la mayor cantidad de datos posible y, más adelante, han decidido qué es útil o qué no. Están negociando implícitamente toda la privacidad de los consumidores por la mayor parte de la información. Abogamos por un enfoque más disciplinado en el que los usos de los datos se especifiquen por adelantado para guiar tanto la recopilación como la retención de los datos. Además, la tecnología nos ha ofrecido todas las herramientas que necesitamos para proteger la privacidad sin afectar a la inteligencia empresarial. Al aprovechar las tecnologías de computación periférica e IA, las empresas pueden aplicar las opciones de diseño de suficiencia, agregación y alteración en la etapa de recopilación de datos. Con una arquitectura cuidadosamente diseñada, podemos obtener la información deseada y garantizar la privacidad de los datos de los consumidores al mismo tiempo. Al contrario de lo que piensa la gente, podemos tener nuestro pastel (de privacidad) y comérnoslo también.