El aprendizaje profundo cambiará radicalmente la forma en que interactuamos con la tecnología
por Aditya Singh

A pesar de que el calor y el sonido son formas de energía, cuando era niño, probablemente no necesitaran que le dijeran que no hablara por convección térmica. Y cada vez que sus hijos se encuentren con un animal callejero, es probable que no tengan que ensayar de forma autoconsciente una subrutina de atributos zoológicos para decidir si es un gato o un perro. Los seres humanos vienen precargados con el equipo cognitivo para simplemente percibir estas distinciones. Las diferencias parecen tan obvias, y conocerlas es tan natural para nosotros, que lo llamamos sentido común. Los ordenadores, por el contrario, necesitan ser cogidos paso a paso (en forma de algoritmos deterministas) para emitir incluso los juicios más básicos. A pesar de décadas de avances ininterrumpidos en velocidad y capacidad de procesamiento, las máquinas no pueden hacer lo que hace un niño pequeño sin siquiera intentarlo. Eso es, hasta ahora.
Durante la última media docena de años, el aprendizaje profundo, una rama de la inteligencia artificial inspirada en la estructura del cerebro humano, ha logrado enormes avances al dar a las máquinas la capacidad de intuir el mundo físico. En el laboratorio de IA de Facebook, han creado un sistema de aprendizaje profundo capaz de responder a preguntas sencillas a las que nunca antes había estado expuesto. El Echo, el altavoz inteligente de Amazon, utiliza técnicas de aprendizaje profundo. Hace tres años, el director de investigación de Microsoft impresionó a los asistentes a una conferencia en China con una demostración de un software de voz de aprendizaje profundo que traducía el inglés hablado al chino y, al instante, entregó la traducción mediante una simulación de su voz hablando mandarín, con una tasa de error de solo el 7%. Ahora utiliza la tecnología para mejorar la búsqueda por voz en Windows Mobile y Bing.
Las empresas de tecnología más poderosas del mundo han estado implementando discretamente el aprendizaje profundo para mejorar sus productos y servicios, y ninguna ha invertido más que Google. Ha «apostado la empresa» por la IA, dice el New York Times, dedicando enormes recursos y reclutando a muchos de los principales investigadores del campo. Y sus esfuerzos han dado sus frutos. Hace unos años, a una red de aprendizaje profundo de Google se le mostraron 10 millones de imágenes de YouTube sin etiquetar y demostró ser casi el doble de precisa a la hora de identificar los objetos de las imágenes (gatos, rostros humanos, flores, varias especies de peces y miles de más) que cualquier otro método anterior. Cuando Google implementó el aprendizaje profundo en su búsqueda por voz de Android, los errores se redujeron un 25% de la noche a la mañana. A principios de este año, otro sistema de aprendizaje profundo de Google derrotó a uno de los mejores jugadores de Go, el juego de mesa más complejo del mundo.
Esto es solo el principio. Creo que en los próximos años, las empresas emergentes y los habituales sospechosos de las grandes tecnologías utilizarán el aprendizaje profundo para actualizar una amplia gama de aplicaciones existentes y crear nuevos productos y servicios. Surgirán líneas de negocio y mercados completamente nuevos, lo que, a su vez, generará aún más innovación. Los sistemas de aprendizaje profundo serán más fáciles de usar y estarán más disponibles. Y predigo que el aprendizaje profundo cambiará la forma en que las personas interactúan con la tecnología de manera tan radical como los sistemas operativos transformaron el acceso de la gente común a los ordenadores.
Aprendizaje profundo
Históricamente, los ordenadores realizaban las tareas programándose con algoritmos deterministas, que detallaban cada paso que había que dar. Esto funcionó bien en muchas situaciones, desde realizar cálculos elaborados hasta derrotar a los grandes maestros del ajedrez. Pero no ha funcionado tan bien en situaciones en las que no era posible proporcionar un algoritmo explícito, como reconocer rostros o emociones o responder a preguntas novedosas.
Herramientas relacionadas
Las últimas investigaciones: IA y aprendizaje automático
Tecnología y operaciones Libro
49.95
Intentar abordar esos desafíos codificando a mano los innumerables atributos de un rostro o un fonema requería demasiado trabajo y dejaba a las máquinas incapaces de procesar datos que no se ajustaban a los parámetros explícitos proporcionados por los programadores. Piense en la diferencia entre los asistentes de voz modernos como Siri o Alexa, que le permiten pedir cosas de varias formas mediante un lenguaje natural, y los sistemas de menús de teléfono automatizados, que solo funcionan si utiliza el conjunto específico de palabras no negociables que están programados para entender. Por el contrario, los sistemas basados en el aprendizaje profundo dan sentido a los datos por sí mismos, sin necesidad de un algoritmo explícito. Inspiradas vagamente en el cerebro humano, estas máquinas aprenden, en un sentido muy real, de su experiencia. Y algunos ahora son casi tan buenos en el reconocimiento de objetos y voz como las personas.
Entonces, ¿cómo funciona el aprendizaje profundo?
Los sistemas de aprendizaje profundo siguen el modelo de las redes neuronales del neocórtex del cerebro humano, donde se produce la cognición de nivel superior. En el cerebro, una neurona es una célula que transmite información eléctrica o química. Cuando se conecta con otras neuronas, forma una red neuronal. En las máquinas, las neuronas son virtuales, básicamente bits de código que ejecutan regresiones estadísticas. Una suficientes de estas neuronas virtuales y obtendrá una red neuronal virtual. Piense en cada neurona de la red de abajo como un modelo estadístico simple: recibe algunas entradas y transmite algunas salidas.
Sin embargo, para que una red neuronal sea útil, se necesita entrenamiento. Para entrenar una red neuronal, se mapea un conjunto de neuronas virtuales y se les asigna un «peso» numérico aleatorio, que determina la forma en que las neuronas responden a los nuevos datos (objetos o sonidos digitalizados). Como en cualquier estadística o aprendizaje automático, la máquina también ve inicialmente las respuestas correctas. Así que si la red no identifica con precisión la entrada (no ve un rostro en una imagen, por ejemplo), el sistema ajusta las ponderaciones (es decir, la atención que presta cada neurona a los datos) para obtener la respuesta correcta. Con el tiempo, tras un entrenamiento suficiente, la red neuronal reconocerá de forma coherente los patrones correctos de la voz o las imágenes.
La idea de las neuronas artificiales existe desde hace al menos 60 años, cuando, en la década de 1950, Frank Rosenblatt construyó un «perceptrón» hecho de motores, diales y detectores de luz, que entrenó con éxito para diferenciar entre formas básicas. Pero las primeras redes neuronales tenían un número extremadamente limitado de neuronas que podían simular, lo que significaba que no podían reconocer patrones complejos. Tres avances en la última década hicieron que el aprendizaje profundo fuera viable.
En primer lugar, Geoffrey Hinton y otros investigadores de la Universidad de Toronto desarrollaron un método innovador para que las neuronas del software se enseñaran por sí mismas mediante capas de su entrenamiento. (Hinton divide ahora su tiempo entre la Universidad de Toronto y Google.) Una primera capa de neuronas aprenderá a distinguir las características básicas, por ejemplo, un borde o un contorno, al recibir millones de puntos de datos. Una vez que la capa aprende a reconocer estas cosas con precisión, pasa a la siguiente capa, que se entrena a sí misma para identificar características más complejas, por ejemplo, una nariz o una oreja. Luego, esa capa pasa a otra capa, que se entrena a sí misma para reconocer niveles aún mayores de abstracción, y así sucesivamente, capa tras capa (de ahí lo «profundo» del aprendizaje profundo), hasta que el sistema pueda reconocer de forma fiable un fenómeno muy complejo, como un rostro humano.
El segundo avance responsable de los recientes avances en la IA es la enorme cantidad de datos que están disponibles ahora. La rápida digitalización ha dado lugar a la producción de datos a gran escala, y esos datos son oxígeno para entrenar los sistemas de aprendizaje profundo. Los niños pueden coger algo después de que les enseñen cómo hacerlo solo un par de veces. Sin embargo, las máquinas alimentadas por IA deben exponerse a innumerables ejemplos. El aprendizaje profundo es básicamente un proceso de fuerza bruta para enseñar a las máquinas cómo se hace o qué es una cosa. Muestre una red neuronal de aprendizaje profundo 19 millones de imágenes de gatos y aparecerán probabilidades, se descartarán las inclinaciones y las neuronas del software eventualmente descubrirán qué factores estadísticamente significativos equivalen a un felino. Aprende a detectar un gato. Por eso el Big Data es tan importante: sin él, el aprendizaje profundo simplemente no funciona.
Por último, un equipo de Stanford dirigido por Andrew Ng (ahora en Baidu) hizo un gran avance cuando se dio cuenta de que los chips de las unidades de procesamiento gráfico, o GPU, que se inventaron para las exigencias de procesamiento visual de los videojuegos, podían reutilizarse para el aprendizaje profundo. Hasta hace poco, los chips de ordenador típicos solo podían procesar un evento a la vez, pero las GPU estaban diseñadas para paralelo informática. El uso paralelo de estos chips para ejecutar redes neuronales, con sus millones de conexiones, aceleró el entrenamiento y las capacidades de los sistemas de aprendizaje profundo en varios órdenes de magnitud. Hizo posible que una máquina aprendiera en un día algo que antes había tardado muchas semanas.
Las redes de aprendizaje profundo más avanzadas de la actualidad están compuestas por millones de neuronas simuladas, con miles de millones de conexiones entre ellas, y se pueden entrenar mediante el aprendizaje sin supervisión. Es la aplicación práctica más eficaz de la inteligencia artificial que se haya ideado hasta la fecha. Para algunas tareas, los mejores sistemas de aprendizaje profundo son los reconocedores de patrones a la par de las personas. Y la tecnología está pasando agresivamente del laboratorio de investigación a la industria.
Sistema operativo de aprendizaje profundo 1.0
A pesar de lo impresionantes que han sido los avances del aprendizaje profundo, estos son los primeros días. Si lo comparo con el ordenador personal, el aprendizaje profundo se encuentra en la etapa de evolución de la pantalla DOS verde y negra. En la actualidad, se dedica una gran cantidad de tiempo y esfuerzo a para aprendizaje profundo (limpiar, etiquetar e interpretar datos, por ejemplo) en lugar de hacer con aprendizaje profundo. Pero en los próximos dos años, las empresas emergentes y establecidas comenzarán a lanzar soluciones comerciales para crear aplicaciones de aprendizaje profundo listas para la producción. Al utilizar marcos de código abierto, como TensorFlow, estas soluciones reducirán drásticamente el esfuerzo, el tiempo y los costes de crear sistemas de aprendizaje profundo complejos. Juntos constituirán los componentes básicos de un sistema operativo de aprendizaje profundo.
Un sistema operativo de aprendizaje profundo permitirá la adopción generalizada de una IA práctica. De la misma manera que Windows y Mac OS permitían a los consumidores habituales utilizar ordenadores y el SaaS les daba acceso a la nube, las empresas de tecnología en los próximos años democratizarán el aprendizaje profundo. Con el tiempo, un sistema operativo de aprendizaje profundo permitirá a las personas que no sean informáticos o investigadores del procesamiento del lenguaje natural utilizar el aprendizaje profundo para resolver problemas de la vida real, como detectar enfermedades en lugar de identificar a los gatos.
Las primeras empresas nuevas que creen el sistema operativo de aprendizaje profundo trabajarán en soluciones de datos, software y hardware.
Datos. Obtener datos de buena calidad a gran escala es el mayor obstáculo para adoptar el aprendizaje profundo. Pero surgirán tanto los talleres de servicios como las plataformas de software para solucionar el problema de los datos. Las empresas ya están creando plataformas inteligentes internas que ayudan a las personas a etiquetar los datos rápidamente. Las futuras plataformas de etiquetado de datos se integrarán en el diseño de la aplicación, de modo que los datos creados con un producto se capturen con fines de formación. Y habrá nuevas empresas basadas en servicios que subcontratarán el etiquetado a países de bajo coste y crearán datos etiquetados por medios sintéticos.
Software. Aquí hay dos áreas principales en las que veo que la innovación se produce:
El diseño y la programación de redes neuronales. Las diferentes arquitecturas de aprendizaje profundo, como las CNN y las RNN, admiten diferentes tipos de aplicaciones (imágenes, texto, etc.). Algunos utilizan una combinación de arquitecturas de redes neuronales. En cuanto a la formación, muchas aplicaciones utilizan una combinación de algoritmos de aprendizaje automático, aprendizaje profundo, aprendizaje por refuerzo o aprendizaje sin supervisión para resolver diferentes subpartes de la aplicación. Predigo que alguien creará una solución de motor de diseño de aprendizaje automático, que examinará una aplicación, entrenará el conjunto de datos, los recursos de infraestructura, etc., y recomendará la arquitectura y los algoritmos correctos para su uso.
Un mercado de módulos de redes neuronales reutilizables . Como se ha descrito anteriormente, las diferentes capas de una red neuronal aprenden diferentes conceptos y, después, se basan unas en otras. Esta arquitectura crea naturalmente la oportunidad de compartir y reutilizar las redes neuronales entrenadas. Una capa de neuronas virtuales que se ha entrenado para identificar un borde, en su camino hasta reconocer la cara de un gato, también podría reutilizarse como capa base para reconocer la cara de una persona. Tensorflow, el marco de aprendizaje profundo más popular, ya admite la reutilización de todo un componente de subgrafos. Pronto, la comunidad de expertos en aprendizaje automático que contribuyen con módulos de código abierto creará la posibilidad de crear versiones de aprendizaje profundo de GitHub y StackOverflow.
Hardware. Encontrar la combinación óptima de GPU, CPU y recursos en la nube, determinar el nivel de paralelización y realizar análisis de costes son decisiones complejas para los desarrolladores. Esto crea una oportunidad para que las empresas basadas en plataformas y servicios recomienden la infraestructura adecuada para las tareas de formación. Además, habrá empresas que ofrecerán servicios de infraestructura (como la orquestación, el escalado horizontal, la gestión y el equilibrio de carga) en hardware especializado para el aprendizaje profundo. Además, espero que las empresas tradicionales y las empresas emergentes lancen sus propios chips optimizados para el aprendizaje profundo.
Estas son solo algunas de las posibilidades. Estoy seguro de que hay muchas más al acecho en las mentes de otros emprendedores, porque la promesa de esta tecnología es inmensa. Estamos empezando a construir máquinas que puedan aprender por sí mismas y que tengan una apariencia de juicio sensato.
Palak Dalal (HBS ‘17) contribuyó con su investigación y análisis a este artículo.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.