¿El científico de datos sigue siendo el trabajo más sexy del siglo XXI?
por Thomas H. Davenport, DJ Patil

Hace diez años publicamos el artículo» Científico de datos: El trabajo más sexy de los 21 st Siglo.» La mayoría de los lectores ocasionales probablemente solo recuerden el modificador «más sexy», un comentario sobre su demanda en el mercado. El puesto era relativamente nuevo en esa época, pero a medida que más empresas intentaban dar sentido al big data, se dieron cuenta de que necesitaban personas que pudieran combinar habilidades de programación, análisis y experimentación. En ese momento, esa demanda estaba restringida en gran medida al área de la bahía de San Francisco y a algunas otras ciudades costeras. Las empresas emergentes y de tecnología de esas áreas parecían querer a todos los científicos de datos que pudieran contratar. Pensamos que la necesidad aumentaría a medida que las principales empresas adoptaran tanto la analítica empresarial como las nuevas formas y volúmenes de datos.
En ese momento, definimos al científico de datos como «un profesional de alto rango con la formación y la curiosidad necesarias para hacer descubrimientos en el mundo del big data». Las empresas estaban empezando a analizar datos voluminosos y menos estructurados, como los flujos de clics en Internet, las redes sociales y las imágenes y el discurso. Como aún no había una trayectoria profesional bien definida para las personas que pudieran programar con esos datos y analizarlos, los científicos de datos tenían diversos antecedentes educativos. El título más común en nuestra encuesta informal a 35 científicos de datos en esa época era un doctorado en física experimental, pero también encontramos astrónomos, psicólogos y meteorólogos. La mayoría tenía un doctorado en algún campo científico, eran excepcionales en matemáticas y sabían programar. Dada la ausencia de herramientas y procesos en esa época para desempeñar sus funciones, también se les daba bien la experimentación y la invención. No es que realmente se necesitara un doctorado en ciencias para hacer el trabajo, sino que estas personas tenían la rara habilidad de desbloquear el potencial de los datos, hurgando en conjuntos de datos complejos y desordenados y creando algoritmos de recomendación.
Una década después, el trabajo tiene más demanda que nunca entre los empleadores y los reclutadores. La IA es cada vez más popular en los negocios, y las empresas de todos los tamaños y lugares creen que necesitan científicos de datos para desarrollar modelos de IA. Para 2019, las publicaciones para científicos de datos en Indeed tenían subido un 256%, y la Oficina de Estadísticas Laborales de los Estados Unidos, predice que la ciencia de datos crecerá más que casi cualquier otro campo entre ahora y 2029. El trabajo más solicitado generalmente se paga bastante bien; el salario medio para un científico de datos con experiencia en California se acerca a los 200 000 dólares.
También persisten muchos de los mismos quebraderos de cabeza. En nuestra investigación para el artículo original, muchos científicos de datos señalaron que dedican gran parte de su tiempo a limpiar y analizar los datos, y eso sigue siendo así a pesar de algunos avances en el uso de la propia IA para mejorar la gestión de los datos. Además, muchas organizaciones no tienen culturas basadas en datos y no aproveche la información que ofrecen los científicos de datos. Que lo contraten y les paguen bien no significa que los científicos de datos puedan marcar la diferencia para sus empleadores. Como resultado, muchos se sienten frustrados, lo que lleva a una alta rotación.
Aun así, el trabajo ha cambiado, tanto a lo grande como a lo pequeño. Se ha institucionalizado mejor, su alcance se ha redefinido, la tecnología en la que se basa ha logrado enormes avances y la importancia de la experiencia no técnica, como la ética y la gestión del cambio, ha crecido. Los muchos ejecutivos que reconocen que la ciencia de datos es importante para sus negocios ahora necesitan crear y supervisar diversos equipos de ciencia de datos en lugar de buscar unicornios científicos de datos. También pueden empezar a pensar en democratizar la ciencia de datos, pero con la ayuda de los científicos de datos.
Mejor institucionalizado
En 2012, la ciencia de datos era una función incipiente, incluso en las empresas emergentes orientadas a la IA. Hoy en día está bastante establecido, al menos en las empresas con un compromiso importante con los datos y la IA. Los bancos, las compañías de seguros, los minoristas e incluso los proveedores de atención médica e incluso las agencias gubernamentales tienen importantes grupos de ciencia de datos; las grandes firmas de servicios financieros pueden tener cientos de científicos de datos. La ciencia de datos también ha sido eficaz para abordar las crisis sociales, contar y predecir los casos y las muertes de la COVID-19, ayudar a abordar los desastres meteorológicos e incluso combatir la desinformación y los ciberhackeos relacionados con la invasión de Ucrania.
Un factor importante que ha facilitado la institucionalización ha sido el aumento de la oferta educativa orientada a la ciencia de datos. En 2012, efectivamente no había programas de licenciatura en ciencia de datos; se contrataban científicos de datos de otros campos de orientación cuantitativa. Ahora hay cientos de programas de grado en ciencia de datos o campos relacionados de la analítica y la IA. La mayoría lo son máster programas, pero también hay especializaciones de pregrado y programas de doctorado en ciencia de datos. También hay una enorme cantidad de certificados, ofertas de cursos en línea y campamentos de entrenamiento en campos relacionados con la ciencia de datos. Hay incluso instituto cursos y planes de estudios de ciencia de datos. Está claro que cualquiera que desee formarse en capacidades de ciencia de datos tendrá muchas opciones para hacerlo. Sin embargo, es poco probable que un solo programa pueda inculcar todas las habilidades necesarias para concebir, crear e implementar análisis, experimentos y modelos de ciencia de datos eficaces y éticos. De hecho, dar sentido a las diversas opciones educativas, incluso en una sola institución, es un desafío para los posibles científicos de datos y para las empresas que desean contratarlos.
Los científicos de datos en relación con otras funciones
La función de ciencia de datos también se complementa ahora con una variedad de otros trabajos. La suposición de 2012 era que los científicos de datos podían realizar todas las tareas necesarias en una aplicación de ciencia de datos, desde conceptualizar el caso de uso hasta interactuar con las partes interesadas empresariales y tecnológicas, desarrollar el algoritmo e implementarlo en la producción. Sin embargo, ahora ha habido una proliferación de trabajos relacionados para gestionar muchas de esas tareas, como ingeniero de aprendizaje automático, ingeniero de datos, especialista en IA, traductores de análisis e IA y gestores de productos orientados a los datos. LinkedIn informó que algunos de estos trabajos eran más populares que los científicos de datos en su» Los empleos van en aumento» informes de 2021 y 2022 para EE. UU.
Parte de la proliferación se debe al hecho de que ningún titular del puesto puede poseer todas las habilidades necesarias para implementar con éxito un sistema complejo de IA o análisis. Cada vez se reconoce más que muchos algoritmos son nunca se desplegó, lo que ha llevado a muchas organizaciones a intentar mejorar las tasas de despliegue. Además, los desafíos de gestionar el aumento de los sistemas y tecnologías de datos han dado lugar a un entorno técnico más complejo. Ha habido algunos intentos de certificación de científicos de datos y trabajos relacionados, pero aún no son muy buscados ni reconocidos. Algunas empresas, tipo TD Bank, han desarrollado estructuras de clasificación para las numerosas carreras y habilidades relacionadas con la ciencia de datos, pero no son lo suficientemente comunes en las organizaciones.
Como resultado de esta proliferación de habilidades, las empresas necesitan identificar todas las diferentes funciones necesarias para implementar de forma eficaz los modelos de ciencia de datos en sus negocios y asegurarse de que están presentes y colaboran en los equipos.
Cambios en la tecnología
Una de las razones por las que el trabajo de científico de datos sigue cambiando es porque las tecnologías que utilizan los científicos de datos están cambiando. Algunas tendencias tecnológicas son continuaciones en la dirección presente en 2012, como el uso de herramientas de código abierto y el paso al procesamiento y almacenamiento de datos basados en la nube. Pero algunos afectan al núcleo del trabajo de la ciencia de datos. Por ejemplo, algunos aspectos de la ciencia de datos están cada vez más automatizados (mediante el aprendizaje automático o Auto ML), lo que puede mejorar la productividad de los profesionales de la ciencia de datos y abrir la posibilidad de que los «científicos de datos ciudadanos» solo tengan una formación cuantitativa. Estas herramientas automatizadas aún no han reducido el atractivo de los científicos de datos profesionales, pero podrían hacerlo en el futuro.
Las empresas deberían empezar a democratizar la analítica avanzada y la IA en sus organizaciones, confiando en los científicos de datos para garantizar que los modelos desarrollados por los ciudadanos son precisos y que se emplean todos los datos relevantes.
Los científicos de datos se han dado cuenta de que sus modelos pueden «desviarse» en entornos empresariales turbulentos, como la pandemia de la COVID-19, por lo que se hace un nuevo hincapié en supervisar su precisión tras el despliegue. Las herramientas de operaciones de aprendizaje automático, o «MLOP», proporcionan una monitorización continua de los modelos; el reentrenamiento automatizado de modelos a la deriva acaba de empezar a emplearse. Un poco de AutoML y MLOP herramientas incluso probar el sesgo algorítmico.
Estos avances significan que la codificación, que era quizás el requisito laboral más común cuando escribimos hace una década, es algo menos esencial en la ciencia de datos. Ha migrado a otros trabajos o se está automatizando cada vez más. (Sin embargo, la limpieza de datos es una notable excepción a esta tendencia.) El objetivo principal del trabajo sigue girando hacia la modelización predictiva y la capacidad de traducir las cuestiones y requisitos empresariales en modelos. Se trata de actividades colaborativas, pero lamentablemente aún no hay herramientas buenas para estructurar y apoyar las actividades colaborativas de ciencia de datos.
La ética de la ciencia de datos
Un cambio importante en la ciencia de datos en la última década es la necesidad de un dimensión ética al campo es ahora ampliamente reconocido, aunque el tema rara vez se mencionó en 2012. El punto de inflexión para la ética de la ciencia de datos fueron probablemente las elecciones presidenciales estadounidenses de 2016, en las que los científicos de datos de las redes sociales ( Cambridge Analytica y Facebook en particular) intentó influir en los votantes y polarizó aún más la política electoral. Desde entonces, se ha dedicado una atención considerable a las cuestiones del sesgo algorítmico, la transparencia y el uso responsable de la analítica y la IA.
Algunas empresas ya han establecido grupos y procesos de IA responsables. Una de sus funciones clave es educar a los científicos de datos sobre los temas relacionados con la IA ética. Y hay un aumento de la regulación que se está instituyendo en respuesta a los errores éticos.
. . .
Hemos visto tanto la continuidad como el cambio en el papel de la ciencia de datos. Ha tenido un éxito notable en muchos sentidos, y algunos de sus desafíos (la proliferación de funciones relacionadas, la necesidad de una perspectiva ética) se deben en parte a la adopción generalizada de la ciencia de datos. Parece poco probable que la cantidad de datos, análisis e inteligencia artificial en los negocios y la sociedad disminuya, por lo que el puesto de científico de datos no hará más que crecer en importancia en el panorama empresarial.
Sin embargo, también seguirá cambiando. Esperamos ver una diferenciación continua de responsabilidades y funciones que alguna vez cayeron en la categoría de científico de datos. Las empresas necesitarán procesos detallados de clasificación y certificación de habilidades para estos diversos puestos y deben asegurarse de que todos los puestos necesarios están presentes en los proyectos de ciencia de datos a gran escala. Los propios científicos de datos profesionales se centrarán en la innovación algorítmica, pero también tendrán que ser responsables de garantizar que los aficionados no se metan en líos. Lo que es más importante, los científicos de datos deben contribuir a la recopilación adecuada de datos, al análisis responsable, a los modelos totalmente desplegados y a los resultados empresariales exitosos.
Nota del editor: Esta entrada se ha actualizado.
Artículos Relacionados

La IA es genial en las tareas rutinarias. He aquí por qué los consejos de administración deberían resistirse a utilizarla.

Investigación: Cuando el esfuerzo adicional le hace empeorar en su trabajo
A todos nos ha pasado: después de intentar proactivamente agilizar un proceso en el trabajo, se siente mentalmente agotado y menos capaz de realizar bien otras tareas. Pero, ¿tomar la iniciativa para mejorar las tareas de su trabajo le hizo realmente peor en otras actividades al final del día? Un nuevo estudio de trabajadores franceses ha encontrado pruebas contundentes de que cuanto más intentan los trabajadores mejorar las tareas, peor es su rendimiento mental a la hora de cerrar. Esto tiene implicaciones sobre cómo las empresas pueden apoyar mejor a sus equipos para que tengan lo que necesitan para ser proactivos sin fatigarse mentalmente.

En tiempos inciertos, hágase estas preguntas antes de tomar una decisión
En medio de la inestabilidad geopolítica, las conmociones climáticas, la disrupción de la IA, etc., los líderes de hoy en día no navegan por las crisis ocasionales, sino que operan en un estado de perma-crisis.