PathMBA Vault

IT management

La gran idea: la próxima revolución científica

por Tony Hey

Es probable que un visitante que pasee hoy por los pasillos del campus de Microsoft Research en Redmond (Washington) escuche discusiones no solo sobre la informática, sino también sobre una sorprendente variedad de otros temas, desde la dirección en que gira una galaxia, hasta una nueva vacuna contra el SIDA y las estrategias para gestionar el precioso suministro de agua dulce del planeta.

¿Qué podrían tener en común estas cuestiones? ¿Y por qué Microsoft —aparentemente una empresa de software— participaría con ellos? La respuesta simple son los datos, enormes cantidades de datos. Tan enorme que cuando ejecutamos los programas que analizan algunas de las bases de datos, la temperatura del edificio que alberga 10 000 microprocesadores se dispara varios grados. Hoy en día, nuestros informáticos se encuentran en asociación con científicos líderes de una amplia gama de disciplinas (astronomía, biología, química, hidrología, oceanografía, física y zoología, solo por nombrar algunas) que trabajan en iniciativas como el desarrollo de fármacos, las energías alternativas y la reducción de los costes de la atención médica. Y sí, incluso proyectos de software comercial. Creemos que una nueva generación de potentes herramientas de software, que permiten la colaboración y la exploración de datos a una escala sin precedentes, están a punto de permitir descubrimientos revolucionarios en estos campos.

Durante décadas, los científicos de la computación han intentado enseñar a los ordenadores a pensar como expertos humanos incorporando en ellos complejas reglas de la lingüística y el razonamiento. Hasta ahora, la mayoría de esos esfuerzos no han logrado ni cerca de generar los conocimientos y soluciones creativos que los mejores científicos, médicos, ingenieros y vendedores tienen de forma natural. Los expertos con más talento no solo tienen un profundo conocimiento de los datos, sino que también son capaces de ver las posibilidades «entre las columnas»; pueden encontrar las conexiones no obvias dentro o entre las disciplinas que marcan la diferencia.

Sin embargo, hemos llegado a un punto en el que incluso los expertos se están ahogando en los datos. La información digital llega desde todo tipo de sensores, instrumentos y simulaciones, lo que supera nuestra capacidad de organizarla, analizarla y almacenarla. Ley de Moore ha pronosticado durante décadas con precisión que el número de transistores que se podrían colocar en un circuito integrado se duplicaría cada dos años y, hasta hace poco, esta disminución del tamaño de los transistores iba acompañada de un aumento del rendimiento del microprocesador. Para aumentar el rendimiento hoy en día, debemos programar varios procesadores en chips multinúcleo y aprovechar el paralelismo. La revolución multinúcleo ha llegado justo cuando nos enfrentamos a un aumento exponencial de los datos. Ese aumento no es un desafío que podamos abordar con parches y actualizaciones; debemos replantearnos todo nuestro enfoque de la ciencia con uso intensivo de datos. Por eso, hace varios años, nuestro colega y ganador del premio Turing, el fallecido Jim Gray, propuso lo que llamó «el cuarto paradigma» para la exploración científica. La visión de Jim de nuevas y poderosas herramientas para analizar, visualizar, extraer y manipular datos científicos puede representar la única esperanza sistemática que tenemos de resolver algunos de nuestros desafíos globales más espinosos.

Los cuatro paradigmas de la ciencia

Experimentación A partir de la antigua Grecia y China, la gente trataba de explicar sus observaciones mediante leyes naturales en lugar de causas sobrenaturales. Teoría En el

Los dos primeros paradigmas de la exploración y el descubrimiento científicos, el experimento y la teoría, tienen una larga historia. El método experimental se remonta a la antigua Grecia y China, cuando la gente intentaba explicar sus observaciones por causas naturales y no sobrenaturales. La ciencia teórica moderna se originó con Isaac Newton en el siglo XVII. Tras el desarrollo de los ordenadores de alto rendimiento en la segunda mitad del siglo XX, ganador del Premio Nobel Ken Wilson identificó la computación y la simulación como un tercer paradigma para la exploración científica. Las simulaciones por ordenador detalladas capaces de resolver ecuaciones a gran escala permitieron a los científicos explorar campos de investigación que eran inaccesibles para la experimentación y la teoría, como los modelos climáticos o la formación de galaxias.

Según las cifras

400 El número estimado de agencias que participan en la gestión del suministro de agua de California. Coordinar y analizar los datos que generan puede hacer que la gestión del

El cuarto paradigma también incluye ordenadores potentes. Pero en lugar de desarrollar programas basados en reglas conocidas, los científicos comienzan con los datos. Dirigen los programas para que exploten enormes bases de datos en busca de relaciones y correlaciones; en esencia, utilizan los programas para descubrir las reglas. Consideramos que los macrodatos son parte de la solución, no del problema. El cuarto paradigma no intenta reemplazar a los científicos ni a las otras tres metodologías, sino que requiere un conjunto diferente de habilidades. Sin la capacidad de utilizar sofisticadas herramientas informáticas que manipulan los datos, ni siquiera el experto más cualificado nunca lograría descubrir los conocimientos que ahora están empezando a centrarse.

Salvar vidas con el «aprendizaje automático»

Empecemos con un ejemplo del tipo de pensamiento que impulsa este tipo de investigación. En la década de 1980, mi colega Eric Horvitz, mientras se formaba en un hospital de la Administración de Veteranos como parte de su formación médica, observó un fenómeno inquietante. Durante la temporada navideña, el hospital sufrió un aumento de los ingresos por insuficiencia cardíaca congestiva. Cada año, algunos pacientes que, por lo demás, habían gestionado su salud con éxito a pesar de tener el corazón debilitado llegaban a un punto de inflexión después de una comida navideña salada. Ese exceso de sal hacía que sus cuerpos retuvieran más líquidos, lo que provocaba congestión pulmonar y dificultad para respirar y, a menudo, a una visita a la sala de emergencias.

Los derrumbes posteriores a Turquía eran caros en todos los sentidos de la palabra. Podrían ser mortales para algunos pacientes, a veces con bastante rapidez, a veces al provocar una espiral descendente de fallas en los sistemas fisiológicos que tardaba días o semanas. Otros pacientes, más afortunados, se estabilizaron de forma eficaz, pero la mayoría necesitó una estancia de una semana o más, lo que normalmente le costaría al sistema de VA entre 10 000 y 15 000 dólares por paciente. (Hoy esos proyectos de ley serían mucho más altos).

Más de dos décadas después, Eric y sus colegas de Microsoft Research han desarrollado análisis que pueden predecir con una precisión impresionante si un paciente con insuficiencia cardíaca congestiva que sea dado de alta del hospital volverá a ingresar en un plazo de 30 días. Esta hazaña no se basa en programar un ordenador para que analice las consultas que haría un diagnosticador determinado ni en una estimación global del número de pacientes que regresan. Más bien, esta información proviene de lo que llamamos «aprendizaje automático», un proceso mediante el cual los informáticos dirigen un programa para que analice detenidamente una enorme base de datos; en este caso, cientos de miles de puntos de datos que incluyen cientos de variables probatorias de unos 300 000 pacientes. La máquina es capaz de «aprender» los perfiles de los pacientes con más probabilidades de ser readmitidos analizando las diferencias entre los casos de los que conoce el resultado. Con el programa, los médicos pueden introducir el perfil de datos de un nuevo paciente para determinar la probabilidad de que «regrese» al hospital.

En cierto sentido, le debemos este proyecto a un experto humano que descubrió una conexión no obvia: Eric no solo obtuvo su doctorado en medicina, sino que también tiene un doctorado en ciencias de la computación, y se dio cuenta de que técnicas de aprendizaje automático similares a las que él y su equipo habían utilizado para analizar los patrones de tráfico de Seattle podían funcionar para este importante desafío de atención médica. En 2003, desarrollaron métodos para predecir los atascos de tráfico mediante el análisis de enormes cantidades de datos, que incluían información sobre el flujo de tráfico en las autopistas, informes meteorológicos, accidentes, eventos locales y otras variables que se habían recopilado a lo largo de varios años. El nuevo programa del equipo comparó los datos de los pacientes que fueron readmitidos y no, y descubrió relaciones entre pruebas sutiles en el historial clínico del paciente, las pruebas de diagnóstico e incluso los factores socioeconómicos, como si el paciente vivía solo. Esta integración no era trivial: la información sobre la situación de vida de un paciente, por ejemplo, puede estar en el informe de un trabajador social, no en un historial médico. Es poco probable que un solo médico que participe en la atención de un paciente pueda procesar el volumen de variables suficiente para hacer una predicción como esta.

El impacto económico de esta herramienta de predicción podría ser enorme. Si los médicos o los hospitales comprenden las probabilidades de que un paciente sea readmitido, pueden tomar las medidas preventivas adecuadas. Como explica Eric: «Para enfermedades crónicas como las cardiopatías congestivas, podemos diseñar programas de alta específicos para cada paciente que ofrezcan una combinación eficaz de educación y seguimiento, con el objetivo de mantener a los pacientes en regímenes estables y seguros. Estos programas pueden incluir visitas o llamadas de una enfermera, o básculas especiales que indican cambios peligrosos en el equilibrio de líquidos del paciente y se los comunican al médico. Si podemos gastar incluso 500 o 1000 dólares en programas posteriores al alta para los pacientes que tienen más probabilidades de volver a ser hospitalizados, podemos minimizar los reingresos y, de hecho, ahorrar dinero y, al mismo tiempo, mejorar los resultados de salud».

No es de extrañar que las aseguradoras de salud y las cadenas de hospitales hagan cola para hablar de ello. Y no hace falta mucha imaginación para enumerar otros tipos de empresas que podrían beneficiarse también de este tipo de descubrimiento intensivo de datos.

En Wall Street, los programas masivos de minería de datos ya rastrean los «movimientos de simpatía» o los patrones de negociación relacionados entre los diferentes vehículos de inversión. Los fondos de cobertura y los grandes gestores de dinero hacen millones de dólares en apuestas todos los días en función de estas relaciones descubiertas por los datos.

Desde el punto de vista operativo de los negocios, las posibilidades son infinitas. Las empresas podrán realizar análisis masivos de los clientes y las oportunidades de negocio mediante programas que descubran los patrones de precios, los hábitos de compra, la región geográfica, los ingresos de los hogares o un sinfín de puntos de datos más. La gran cantidad de datos disponibles sobre la eficacia de la publicidad, la retención de clientes, la retención de los empleados, la satisfacción de los clientes y la gestión de la cadena de suministro permitirán a las empresas hacer predicciones significativas sobre el comportamiento de cualquier cliente o empleado y la probabilidad de que se produzcan brechas en el servicio o la oferta. Y cada vez más, encontramos empresas que utilizan técnicas de datos para detectar irregularidades en los pagos y las cuentas por cobrar. Estos programas pueden predecir, por ejemplo, los ingresos que deberían recaudarse por una lista determinada de servicios prestados. Un proveedor de atención médica con el que hemos trabajado en Nuevo México descubrió pagos insuficientes de 10 millones de dólares en los primeros seis meses al utilizar estas herramientas de extracción de datos.

Las nuevas herramientas de análisis pondrán en peligro la relevancia del viejo chiste «solo la mitad del dinero de la publicidad tiene éxito, simplemente no sabemos qué mitad». Una empresa de entretenimiento electrónico de Filipinas utiliza la tecnología de minería de datos de Microsoft para personalizar sus argumentos de venta para los clientes individuales, basándose en un análisis exhaustivo de factores como los patrones de compra anteriores, la edad, el sexo, el perfil financiero y la ubicación. Casi inmediatamente después de implementar esta técnica, la empresa vio cómo su ratio de respuesta a las ofertas de tonos de llamada y otros productos se duplicó.

Con todas esas oportunidades de negocio, algunos se preguntan por qué Microsoft Research trabaja en tantos proyectos mundiales de salud y medio ambiente. Después de todo, ¿no son esos proyectos los que Fundación Bill y Melinda Gates ¿podría financiar? Sí, pero la razón por la que Microsoft Research tiene varias docenas de científicos informáticos trabajando en ellos es porque incluyen algunos de los almacenes de datos más enormes imaginables y constituyen un campo de pruebas inestimable. Tenemos que ampliar nuestra forma de pensar y las capacidades de nuestras herramientas trabajando en los mayores problemas que existen, que resulta que son de inmensa importancia para la humanidad. Abordar estos problemas también abre más oportunidades de colaboración y experimentos. Cuando hay un incentivo convincente para que los expertos de diferentes disciplinas trabajen juntos y compartan datos en un entorno transparente, es probable que logremos el progreso más rápido. Como decía Jim Gray, los datos astronómicos son valiosos precisamente porque no tienen valor comercial.

Investigación oceánica lista para usar

Uno de esos ambiciosos proyectos medioambientales implica la ciencia oceánica y ahora se está construyendo bajo las frías aguas del Pacífico, al oeste del estado de Washington y Columbia Británica. Es imposible exagerar la importancia de los océanos, que cubren el 70% de la superficie terrestre y constituyen el ecosistema más grande del planeta. Los océanos impulsan los sistemas meteorológicos; son la fuente de peligros poderosos y aún en gran medida impredecibles, como tsunamis y huracanes; almacenan mucho más carbono que la atmósfera, la vegetación y el suelo; y son una fuente fundamental de alimento.

Sin embargo, en muchos sentidos entendemos más sobre las superficies de Marte y Venus que sobre los fondos marinos. El agua es opaca a la radiación electromagnética que nos permite explorar los cielos; por eso los pilares de nuestra investigación oceanográfica han sido los submarinos, los barcos y los satélites. Eso está a punto de cambiar. En una zona del suelo del Pacífico, los oceanógrafos que participan en el Fundación Nacional de Ciencias de los Estados Unidos 600 millones de dólares Iniciativa de observatorios oceánicos (OOI) han trazado una red de nodos diseñada para ofrecer lo que mi colega Roger Barga llama irónicamente «USB para el océano». OOI tenderá 1.500 millas de cable hasta el parche y sus alrededores, proporcionando energía, acceso a Internet y la posibilidad de registrar y marcar la hora los datos sobre los fenómenos que los científicos estudiarán con todo tipo de dispositivos, desde simples sensores de temperatura hasta robots teledirigidos y secuenciadores de genes de última generación.

El proyecto tiene como objetivo la participación de científicos de todo el mundo. La capacidad de medir y analizar los procesos naturales, como la acumulación de sedimentos o los cambios en la densidad de los organismos microscópicos, no tiene precedentes. Pero la cantidad de información que generará OOI podría arruinar el esfuerzo si los datos no se organizan y almacenan de manera inteligente. Por eso Roger y su equipo utilizan la tecnología de flujo de trabajo para gestionar los datos recopilados y están descubriendo cómo almacenar los datos en la nube de computación compartida, de modo que no abrumen a ninguna instalación y los científicos, estudiantes y ciudadanos interesados de todo el mundo puedan acceder a ellos. El equipo está elaborando los estándares de datos que permitirán a los programas de análisis combinar los hallazgos de diferentes experimentos en un análisis más amplio. Eso se llama «interoperabilidad» y es crucial para que estas mezclas científicas funcionen, ya que los investigadores querrán combinar y comparar los datos generados por los modelos predictivos en los laboratorios, así como los datos de otras fuentes, con los datos de la red OOI en el fondo marino.

«Esta nueva era se basa en la aparición y la convergencia de muchas nuevas tecnologías que evolucionan rápidamente», observa Roger. La exploración se centrará en encontrar correlaciones entre los fenómenos oceánicos que mejoren nuestra comprensión de las interacciones entre la tierra, el océano y la atmósfera, y quizás nuestra capacidad de predecir. Los científicos podrán medir fenómenos submarinos que antes eran inaccesibles, como la erupción de los volcanes, los principales patrones de migración de la vida marina, los terremotos y las tormentas gigantes. El vídeo en tiempo real y las nuevas herramientas de visualización de datos permitirán a los estudiantes, los profesores y el público en general ver cómo se desarrollan estos eventos y, en algunos casos, incluso realizar sus propios experimentos. «Internet se convertirá en la herramienta oceanográfica más poderosa del planeta», predice Roger.

Las nuevas herramientas de vídeo y datos permitirán a los ciudadanos comunes ver cómo se desarrollan los acontecimientos submarinos e incluso realizar sus propios experimentos.

OOI está dando rienda suelta a la creatividad de los oceanógrafos de todo el mundo, que están desarrollando nuevos tipos de instrumentos para conectarlos a este laboratorio submarino. Uno es un secuenciador de ADN del tamaño de una lavadora diseñado para funcionar sin tripulación y bajo el agua. Filtrará las criaturas locales, capturará y tomará muestras de su ADN y, a continuación, enviará los resultados a los científicos en tierra. Esa habilidad por sí sola es impresionante. Si añadimos la capacidad de combinar la información de ADN recopilada con datos sobre los niveles de contaminación, la acidez, la temperatura de los océanos o la presencia de especies migratorias que pueden afectar a la cadena alimentaria (todos los cuales recopilan otros investigadores), tenemos el nacimiento de una nueva era de la ciencia oceanográfica.

¿Todo esto tiene una dimensión empresarial? Bueno, para empezar, imagine lo que pasaría si un químico de una empresa energética que estaba desarrollando una tecnología de reducción de derrames pudiera consultar una base de datos sobre el ADN de estos organismos. Él o ella podrían consultar al instante los perfiles genéticos de los microorganismos de las aguas que rodean un derrame y predecir la forma en que es probable que interactúen con las sustancias químicas o las soluciones en cuestión. Los científicos actuales que se enfrentan a las secuelas del enorme derrame de petróleo en aguas profundas en el Golfo de México no tienen medidas de referencia exhaustivas de la salud de los océanos y, en cambio, se basan en indicadores «aguas abajo», como la salud de los peces. Otras herramientas de interoperabilidad perfeccionadas para la OOI podrían ofrecer información más prosaica, pero no menos importante. Por ejemplo, un ejecutivo de marketing minorista sentado en un escritorio podría recibir un informe diario generado por un programa que analiza los datos que llegan desde los terminales de puntos de venta de todo el mundo en tiempo real, detectando patrones anómalos de ventas y devoluciones y estableciendo conexiones que la mayoría de los minoristas nunca se les ocurriría buscar.

Soluciones para enfermedades y sequías

Una forma en que el cuarto paradigma logra avances más rápidos es permitir que la población en general interactúe con las bases de datos y aporte conocimientos que hagan avanzar los descubrimientos. En el esfuerzo de tráfico de Seattle, por ejemplo, los voluntarios con dispositivos GPS en sus coches ayudaron a recopilar datos críticos sobre las rutas de tráfico locales simplemente conduciendo. Estos métodos se ampliaron más tarde a la tarea de predecir los flujos en todas las calles de las grandes áreas metropolitanas y ahora permiten realizar rutas sensibles al tráfico para 72 ciudades de Norteamérica, disponibles hoy en Bing Maps. (Consulte la barra lateral «Crowdsourcing in the Heavens» para ver una descripción de otro esfuerzo que se está llevando a cabo en astronomía). Pronto, todo tipo de científicos ciudadanos de diferentes campos utilizarán dispositivos tan simples como teléfonos móviles o ordenadores portátiles para recopilar información especializada y analizarla.

El crowdsourcing en los cielos

Ya hay un campo en el que los científicos ciudadanos desempeñan un papel clave a la hora de guiar el descubrimiento: la astronomía. La mayoría de los datos astronómicos actuales

Mi equipo de investigación tiene un proyecto en la India, por ejemplo, que permite al personal no médico de áreas remotas diagnosticar ciertas enfermedades con la ayuda de los teléfonos móviles. Al utilizarlos, las personas consultan una enorme base de datos de información médica, rellenan las respuestas a una serie de preguntas y reciben valiosos diagnósticos en el acto. Este sistema podría utilizarse algún día para rastrear y estudiar la propagación de enfermedades, especialmente las infecciosas. Con un gran número de personas que realizan diagnósticos rápidos que se introducen en una base de datos, los funcionarios públicos y los trabajadores de la salud pueden ver dónde se producen los brotes, qué tan rápido se propagan y qué tipo de síntomas aparecen. El aprendizaje automático puede entrar en el círculo en tiempo real, comparando constantemente cada nuevo caso con todos los demás casos de este y otros brotes infecciosos y buscando patrones que puedan ayudar a las iniciativas de prevención.

La presión que este tipo de proyecto ambicioso pone en todos los aspectos de la tecnología actual (la potencia de procesamiento, la demanda de programadores paralelos y el almacenamiento, la conservación y la publicación de datos) es enorme. A menos que la conservación de los datos esté realmente integrada en el diseño de un proyecto, por ejemplo, los científicos que participan suelen tratar de averiguarlo ad hoc, lo que tiende a llevar a soluciones locales frágiles que no se amplían. Sin embargo, los científicos y los responsables políticos no pueden darse el lujo de esperar a que todo esté resuelto antes de tomar medidas ante problemas urgentes, como el cambio climático o la escasez de agua, o planificar huracanes o tsunamis.

Pensemos en la difícil situación de California, donde se prevé que la población aumente de unos 38 millones en la actualidad a más de 50 millones en 2040. Jeff Dozier, profesor de la Escuela de Ciencias y Gestión Ambientales de la Universidad de California en Santa Bárbara, afirma: «La disponibilidad de agua impulsa la economía de California. Históricamente, hemos intentado gestionar el suministro de agua para satisfacer la demanda. Puede que ya no podamos hacerlo. A todo el mundo le encantaría un suministro uniforme y confiable, pero eso no es lo que nos da la naturaleza. Necesitaremos una tecnología mucho mejor para predecir la cantidad de agua que tendremos en un año determinado».

Predecir las reservas de agua a partir de la capa de nieve es un problema mucho más difícil de lo que parece, explica Dozier. Los satélites recopilan enormes volúmenes de datos sobre la capa de nieve, pero siguen siendo insuficientes porque revelan principalmente las características de la superficie de la nieve. Para gestionar la escorrentía, necesitamos saber el «equivalente en agua» o la cantidad de agua que se generaría por el derretimiento de la nieve. Podemos estimar el equivalente en agua a partir del peso de la nieve, pero es difícil de medir en grandes extensiones de terreno variable. El desafío: ¿Cómo combinan los científicos los datos de los satélites y las mediciones de superficie con la información sobre la economía y la gobernanza para estimar, calibrar y gestionar mejor los suministros de agua? Solo en California, hay al menos 400 agencias diferentes que gestionan el agua. Microsoft está trabajando con científicos de la Universidad de California en Berkeley y el Laboratorio Nacional Lawrence Berkeley para adquirir y conservar datos hidrológicos históricos, de modo que puedan utilizarse de forma más eficaz con los datos de las nuevas redes de sensores y crear mejores modelos de predicción.

Mediante el análisis de datos, los científicos se centran en la forma de detener el VIH.

En otro ámbito urgente, David Heckerman, de Microsoft, otro médico con un doctorado en ciencias de la computación, utiliza los descubrimientos científicos con uso intensivo de datos en la lucha contra el virus de la inmunodeficiencia humana. «En varios años, en un solo paciente, el VIH muta casi tanto como el virus de la gripe en su historia conocida», explica. Por eso ha sido tan difícil desarrollar una vacuna para frustrarlo. Además, las mutaciones que se observan en un individuo son muy diferentes de las que se observan en otro, gracias a la variabilidad del sistema inmunitario humano. David y su equipo están analizando los datos sobre las mutaciones virales individuales en miles de sujetos, intentando centrarse en los elementos del virus que son vulnerables a los ataques del sistema inmunitario. Al crear una vacuna que pueda hacer que el propio sistema inmunitario de la persona ataque esos elementos, esperan detener el virus. Él y su colaborador de Harvard Bruce Walker esperan empezar pronto a probar la primera vacuna basada en este trabajo.

Cambio de marchas y estándares

Proyectos como el desarrollo de vacunas o campos como la genómica humana implican un número limitado de disciplinas, pero cantidades absolutamente enormes de datos exclusivos de cada individuo. En un esfuerzo por caracterizar mejor un fenómeno ambiental, como los procesos oceánicos o el cambio climático, lo abrumador no es solo el volumen de datos sobre un factor, sino también el número de disciplinas y fuentes de datos. Los cálculos exhaustivos de las tendencias del calentamiento podrían requerir tener en cuenta las mediciones del calor radiante reflejado por las capas de hielo polares, el desperdicio de las plataformas de hielo flotantes provocado por pequeños aumentos de la temperatura del océano, la salud de los bosques de manglares en los climas tropicales, las tendencias mundiales de eclosión de insectos, los cambios climáticos capturados en los anillos de los árboles, los niveles de CO2 conservados en los núcleos de hielo almacenados, y más. Crear estándares para recopilar, almacenar y agrupar esos datos será cada vez más importante a medida que los científicos desplieguen más y más sensores.

Y lo que es más importante, la mayoría de nosotros cree que la publicación científica cambiará drásticamente en el futuro. Hoy prevemos que el producto final (artículos que discuten un experimento y sus hallazgos y solo hacen referencia a conjuntos de datos) se transformará en un envoltorio para los propios datos, al que otros investigadores podrán acceder directamente a través de Internet, investigar con sus propias preguntas o incluso mezclar en sus propios conjuntos de datos de formas creativas que generen información con la que el primer investigador quizás nunca hubiera soñado. El objetivo, como muy bien dijo Jim Gray, es «un mundo en el que toda la literatura científica esté en línea, todos los datos científicos estén en línea e interactúen entre sí. Se necesitan muchas herramientas nuevas para que esto suceda».

Más allá de Microsoft: Cómo otras empresas de tecnología ayudan a promover la ciencia por: Daniel McGinn

Los científicos de la computación están impulsando los avances en la atención de la salud, el cambio climático y otras disciplinas. A principios de 2009, los Centros para el

Si bien la realización de este objetivo implicaría cambios positivos para la sociedad y el planeta, el cuarto paradigma también generará inevitablemente grandes oportunidades de negocio. Por ejemplo, el análisis genómico del VIH de David Heckerman es solo una pequeña parte de la agenda mucho más amplia de la medicina personalizada. La industria farmacéutica apuesta a que averiguar qué fármacos son más eficaces para una persona con un perfil genético determinado aportará una dimensión completamente nueva al diseño de los fármacos. El Grupo de Soluciones de Salud de Microsoft está integrando las historias clínicas y las imágenes como primer paso para proporcionar un conjunto de herramientas inteligentes que ayuden a la industria farmacéutica a cumplir esta visión.

Todas las disciplinas científicas, incluida la informática, deben colaborar para hacer realidad el poder del cuarto paradigma y resolver problemas importantes para la humanidad. Las respuestas se esconden entre enormes montañas de números y está a nuestro alcance encontrarlas.