PathMBA Vault

Cybersecurity and digital privacy

Sus algoritmos no están a salvo de los piratas informáticos

por Kira Radinsky

jan16-05-565929473

La ciberseguridad se ha convertido en una de las mayores preocupaciones del CEO, según varios encuestas. Las empresas invierten miles de millones en la protección de sus sistemas y en la formación de sus empleados. El mercado mundial de ciberseguridad ha sido estimado 77 000 millones de dólares en 2015 y serán 170 000 millones de dólares en 2020. Sin embargo, el campo se ha centrado principalmente en proteger los sistemas de las vulnerabilidades del software y el hardware. Las amenazas actuales ya no se limitan a esos dos lugares. A medida que las organizaciones confían cada vez más en los algoritmos basados en datos, los riesgos están cada vez más presentes en los propios datos.

Los sistemas de clasificación de patrones en los que se basan los algoritmos de aprendizaje automático pueden presentar vulnerabilidades que pueden ser explotadas por piratas informáticos u otros delincuentes. Una de esas vulnerabilidades más comunes es que un atacante estima qué datos se utilizaron para entrenar el algoritmo de aprendizaje automático y, por lo tanto, es capaz de manipular los datos de entrada para el propio algoritmo.

Por ejemplo, las empresas de optimización de motores de búsqueda (SEO) llevan tiempo adivinando cómo se entrenó el algoritmo de aprendizaje automático de los motores de búsqueda y manipularon el contenido de sus sitios web para mejorar sus resultados en la clasificación de las búsquedas. Los remitentes de correo basura tratan de engañar al algoritmo de filtrado de spam deletreando mal las palabras «malas» o añadiendo palabras o frases no relacionadas a sus mensajes para que parezcan correos electrónicos legítimos.

La mayoría de nosotros vemos ejemplos como este todos los días y, en su mayoría, parecen una pequeña molestia: hacemos clic en un enlace incorrecto o tenemos que eliminar algunos correos electrónicos adicionales. Pero este tipo de fraude puede tener consecuencias más graves. El sector de las tarjetas de crédito, que ha adoptado muchos enfoques de aprendizaje automático y otras técnicas estadísticas basadas en datos para identificar el fraude, ha estado expuesto a estas amenazas durante muchos años. Si un atacante conoce el patrón habitual de un comprador, puede crear una serie de compras fraudulentas que solo se desvíen ligeramente de la norma y, por lo tanto, no ser detectadas por el detector de anomalías. Por ejemplo, un atacante puede ver lo que se ha comprado anteriormente en Home Depot y comprar productos a precios similares en Amazon.

El fraude algorítmico también puede influir en las elecciones. La revista científica oficial de la Academia Nacional de Ciencias (PNAS) ha publicado investigación detallando cómo la manipulación de los motores de búsqueda puede afectar a los votantes. El experimento más notable se llevó a cabo con los votantes indios en medio de las elecciones de Lok Sabha de 2014 en la India. Los resultados del experimento mostraron claramente que las clasificaciones de búsqueda sesgadas podrían cambiar las preferencias de voto de los votantes indecisos en un 20% o más. En concreto, se descubrió que el orden en que aparecen los candidatos en los resultados de búsqueda puede tener un impacto significativo en la percepción.

Otro punto débil de los algoritmos de aprendizaje automático es que la mayoría de ellos asumen comúnmente que los datos utilizados para entrenar el algoritmo y los datos a los que se aplica el algoritmo se generan de la misma manera (o lo que los estadísticos denominan «muestreados a partir de la misma distribución»). Cuando se infringe esa suposición, se puede engañar al algoritmo.

Hace poco, ese ataque se llevó a cabo contra sistemas biométricos. La mayoría de los sistemas biométricos permiten que los perfiles de los clientes se adapten a los cambios naturales a lo largo del tiempo, por lo que el software de reconocimiento facial se actualiza poco a poco a medida que el rostro envejece y cambia. Pero un adversario malintencionado puede aprovechar esta adaptabilidad. Al presentar una secuencia de rasgos biométricos falsos al sensor, el atacante puede actualizar gradualmente su perfil hasta que lo sustituya por completo por otro diferente, lo que eventualmente permitirá al atacante hacerse pasar por usted o por otros clientes objetivo.

A medida que aumentamos el uso de dispositivos inteligentes y conectados, también utilizamos cada vez más algoritmos de aprendizaje automático en todos los aspectos de la vida, desde los coches hasta los teléfonos, los lectores de tarjetas de crédito, los dispositivos portátiles y muchos más. En consecuencia, proteger los algoritmos que ejecutan estos dispositivos del «hackeo estadístico» o el «aprendizaje automático adverso» se está convirtiendo en una necesidad cada vez mayor. Se pueden hacer muchas cosas, desde crear algoritmos de aprendizaje con varios clasificadores hasta el uso de la aleatorización.

En un momento en que los algoritmos de inteligencia artificial impulsan todo, desde la opinión pública hasta la toma de decisiones empresariales y el número de medidas que se toman cada día, vale la pena preguntarse: ¿qué tan seguros son esos algoritmos? ¿Y qué puedo hacer para que sean más seguros?