PathMBA Vault

Gestión de riesgos

Uso de algoritmos para predecir el próximo brote

por Kira Radinsky

2014NOV06-2

No cabe duda de que nuestro mundo se enfrenta a desafíos complejos, desde el calentamiento del clima hasta levantamientos violentos, la inestabilidad política y los brotes de enfermedades. El número de estas crisis que se están desarrollando actualmente, en combinación con la persistente incertidumbre económica, ha llevado a muchos líderes a lamentar el auge de volatilidad, incertidumbre, complejidad y ambigüedad. La resiliencia y la adaptabilidad, al parecer, son nuestro único recurso.

Pero, ¿y si esos acontecimientos desestabilizadores pudieran predecirse con antelación? ¿Qué medidas podrían tomar los líderes si las señales de advertencia temprana fueran más fáciles de detectar? Justo en esta década, por fin hemos alcanzado la cantidad crítica de datos y potencia informática necesaria para crear este tipo de herramientas.

«¿Qué es la historia? Un eco del pasado en el futuro», escribió Victor Hugo en El hombre que ríe. Aunque los acontecimientos futuros tienen circunstancias únicas, suelen seguir patrones pasados conocidos. Los avances en los algoritmos de computación, almacenamiento de datos y ciencia de datos permiten ver esos patrones.

Un sistema cuyo desarrollo he dirigido en los últimos siete años recopila historias digitales a gran escala, enciclopedias, redes sociales y en tiempo real y el comportamiento humano en la web para calcular estimaciones en tiempo real de la probabilidad de eventos futuros. Básicamente, nuestro sistema combina 150 años de artículos del New York Times, toda la Wikipedia y millones de búsquedas y páginas web para modelar la probabilidad de posibles resultados en el contexto de condiciones específicas. El algoritmo generaliza las secuencias de acontecimientos históricos extraídas de estos enormes conjuntos de datos, probando automáticamente todas las combinaciones posibles de causa y efecto y encontrando correlaciones estadísticas.

Por ejemplo, hace poco, mis colegas científicos de datos y yo desarrollamos algoritmos que predijeron con precisión el primer brote de cólera en 130 años. El patrón que nuestro sistema dedujo era que los brotes de cólera en las zonas sin litoral tienen más probabilidades de producirse después de las tormentas, especialmente cuando van precedidos de una sequía prolongada de hasta dos años antes. El patrón solo se produce en los países con un PIB bajo y que tienen una baja concentración de agua en la zona. Esto es muy sorprendente, ya que el cólera es una enfermedad transmitida por el agua y cabría esperar que se produjera en áreas con una alta concentración de agua. (Una posible explicación podría estar en cómo se tratan las infecciones por cólera: si se suministra un tratamiento de deshidratación rápida, las tasas de mortalidad por cólera caen del 50 por ciento a menos del 1 por ciento. Por lo tanto, puede ser que en áreas con suficiente agua limpia la epidemia no se haya desatado.)

La implicación de estas predicciones, que se deduce automáticamente mediante un sistema estadístico que se actualiza constantemente, es que los equipos médicos pueden recibir alertas con hasta dos años de antelación del riesgo de una epidemia de cólera en un lugar específico y pueden enviar agua limpia y salvar vidas.

Se pueden predecir otras epidemias de forma similar. El ébola sigue siendo lo suficientemente raro como para que sea difícil inferir los patrones estadísticos. Sin embargo, utilizando los conocimientos sobre víctimas humanas extraídos de publicaciones médicas, junto con los acontecimientos recurrentes, surge un patrón destacado de los brotes de ébola.

Varias publicaciones han informado de una conexión entre el brote de ébola actual y el anterior y murciélagos de fruta. Pero, ¿qué hace que los murciélagos frugívoros entren en contacto con los humanos?

Los primeros brotes de ébola se produjeron en 1976 en el Zaire y Sudán. Un año antes, un volcán entró en erupción en la zona, lo que llevó a muchos a buscar oro y diamantes. Esas acciones provocaron la deforestación. Nuestro algoritmo dedujo, de enciclopedias y otras bases de datos, que la deforestación provoca la migración de los animales, incluida la migración de los murciélagos frugívoros.

Hemos utilizado el mismo enfoque para modelar la probabilidad de estallidos de violencia. Nuestro sistema pronosticó disturbios en Siria y Sudán, y en sus ubicaciones, al observar que es más probable que se produzcan disturbios en regiones no democráticas con un PIB creciente pero con bajos ingresos por persona, cuando se sube el precio de un producto que antes estaba subvencionado, lo que provoca disturbios estudiantiles y enfrentamientos con la policía.

El algoritmo también predijo el genocidio al identificar que esos hechos ocurren con mayor probabilidad si los líderes o personas prominentes del país deshumanizan a la minoría, específicamente cuando se refieren a los miembros de la minoría como plagas. Un ejemplo de ello es el genocidio en Ruanda. Años antes de que se asesinara a 4.000 tutsis en Kivumu, líderes hutus, como el alcalde de Kivumu, Gregoire Ndahimana, se referían a la minoría tutsi como inyenzi (cucarachas). A partir de este y otros datos históricos, nuestro algoritmo dedujo que la probabilidad de genocidio casi se cuadruplica si: a) una persona o un grupo describe a un grupo minoritario (tal como lo definen el censo y los datos de la ONU) como un animal que no es mamífero o como un animal que propaga enfermedades, como los ratones, y b) el hablante lo hace de 3 a 5 años antes de que salga en las noticias un mínimo de docenas de veces y tenga una entrada en Wikipedia en el idioma local sobre él.

Tras un análisis empírico de miles de eventos que ocurrieron en el último siglo, hemos observado que nuestro sistema identifica entre el 30 y el 60% de los próximos eventos con una precisión del 70 al 90%. Eso no es una bola de cristal. Pero es mucho, mucho mejor que lo que tenían los humanos antes.

¿Qué significaría para las ONG, las empresas de construcción y las organizaciones de salud saber que las sequías seguidas de tormentas pueden provocar cólera? ¿Qué significaría para las compañías mineras, los reguladores, las organizaciones medioambientales y los líderes gubernamentales saber que la minería provoca deforestación y que la deforestación provoca la migración de murciélagos frugívoros y que las migraciones de murciélagos frugívoros pueden aumentar el riesgo de un brote de ébola? ¿Y qué haríamos todos con la información de que ciertas elecciones lingüísticas y cambios en las políticas pueden provocar una violencia generalizada? ¿Cómo podríamos empezar todos a pensar en el riesgo de manera diferente?

Sí, los «macrodatos» y los análisis sofisticados permiten a las empresas mejorar considerablemente sus márgenes de beneficio. Pero combinar los conocimientos obtenidos al extraer millones de artículos de noticias, miles de artículos de enciclopedias e innumerables sitios web para ofrecer un análisis coherente de causa y efecto tiene mucho más potencial que simplemente aumentar las ventas. Puede permitirnos anticipar automáticamente las crisis hasta ahora impredecibles, pensar de manera más estratégica en el riesgo y ofrecer a la humanidad una visión del futuro basada en las lecciones del pasado relevante. Significa podemos hacer algo sobre la volatilidad, la incertidumbre, la complejidad y la ambigüedad que nos rodean. Y significa que la próxima vez que haya un motín o un brote, los líderes no se dejarán llevar por sorpresa.