PathMBA Vault

Technology and analytics

Ciencia de datos impulsada por la curiosidad

por Eric Colson

Ciencia de datos impulsada por la curiosidad

Akimasa Harada/Getty Images

La ciencia de datos puede permitir capacidades totalmente nuevas e innovadoras que pueden diferenciar por completo a una empresa. Pero esas capacidades innovadoras no están diseñadas o imaginadas, sino que las descubren y revelan los científicos de datos a través de retoques impulsados por la curiosidad. Así que, antes de subirse al tren de la ciencia de datos, piense menos en cómo la ciencia de datos apoyará y ejecutará sus planes y piense más en cómo crear un entorno que permita a sus científicos de datos crear cosas con las que nunca ha soñado.

Primero, un poco de contexto. Soy el director de algoritmos de Stitch Fix, un servicio de estilismo personalizado en línea con 2,7 millones de clientes en los EE. UU. y que tiene previsto entrar en el Reino Unido el año que viene. La novedad de nuestro servicio nos ofrece datos exclusivos y sin precedentes en condiciones casi ideales para aprender de ellos. Tenemos más de 100 científicos de datos que impulsan las capacidades algorítmicas que se utilizan en toda la empresa. Tenemos algoritmos para los sistemas de recomendación, la compra de productos, la gestión del inventario, la gestión de las relaciones, la logística, las operaciones. ¡Incluso tenemos algoritmos para diseñar ropa! Cada una de ellas proporciona beneficios materiales y mensurables, lo que nos permite ofrecer un mejor servicio a nuestros clientes y, al mismo tiempo, constituye una barrera protectora contra la competencia. Sin embargo, los ejecutivos, los directores de producto o los expertos en el dominio no solicitaron prácticamente ninguna de estas capacidades, ni siquiera un gerente de ciencia de datos (y desde luego no yo). En cambio, nacieron de la curiosidad y los retoques extracurriculares de los científicos de datos.

Los científicos de datos son un grupo curioso, especialmente los buenos. Trabajan para lograr objetivos claros y se centran y son responsables de lograr ciertos indicadores de rendimiento. Pero también se distraen con facilidad, en el buen sentido. En el transcurso de su trabajo, se topan con varios patrones, fenómenos y anomalías que se descubren durante su investigación de datos. Esto despierta la curiosidad del científico de datos: «¿Hay alguna manera mejor de caracterizar el estilo de un cliente?» «Si modeláramos el ajuste de la ropa como medida de distancia, ¿podríamos mejorar los comentarios de los clientes?» «¿Se pueden volver a combinar las características exitosas de los estilos existentes para crear otros mejores?» Para responder a estas preguntas, el científico de datos recurre a los datos históricos y empieza a hacer retoques. No piden permiso. En algunos casos, las explicaciones se encuentran rápidamente, en solo unas horas. Otras veces, lleva más tiempo porque cada respuesta evoca nuevas preguntas e hipótesis, lo que lleva a más pruebas y aprendizaje.

¿Están perdiendo el tiempo? No. La ciencia de datos no solo permite una exploración rápida, sino que es relativamente más fácil medir el valor de esa exploración en comparación con otros dominios. Las medidas estadísticas como el AUC, el RMSE y el R-cuadrado cuantifican la cantidad de poder predictivo que añade la exploración del científico de datos. La combinación de estas medidas y el conocimiento del contexto empresarial permiten al científico de datos evaluar la viabilidad y el impacto potencial de una solución que aproveche sus nuevos conocimientos. Si no hay un «allí» ahí, se detienen. Pero cuando hay pruebas convincentes y un gran potencial, el científico de datos pasa a métodos más rigurosos, como los ensayos controlados aleatorios o las pruebas A/B, que pueden proporcionar pruebas del impacto causal. Quieren ver cómo funciona su nuevo algoritmo en la vida real, así que lo exponen a una pequeña muestra de clientes en un experimento. Ya confían en que mejorará la experiencia del cliente y los indicadores empresariales, pero necesitan saber en qué medida. Si el experimento arroja una ganancia lo suficientemente grande, lo extenderán a todos los clientes. En algunos casos, puede que sea necesario trabajar más para crear una capacidad sólida en torno a los nuevos conocimientos. Es casi seguro que esto irá más allá de lo que puede considerarse «trabajo paralelo» y tendrán que colaborar con otras personas para realizar cambios de ingeniería y procesos.

La clave es que nadie le pidió al científico de datos que ideara estas innovaciones. Vieron un fenómeno inexplicable, tuvieron un presentimiento y empezaron a hacer retoques. No tuvieron que pedir permiso para explorar porque es relativamente barato permitirles hacerlo. Si hubieran pedido permiso, los gerentes y las partes interesadas probablemente habrían dicho «no».

Estas dos cosas, la exploración de bajo coste y la capacidad de medir los resultados, diferencian la ciencia de datos de otras funciones empresariales. Claro, otros departamentos también sienten curiosidad: «¿Los clientes responderían mejor a este tipo de creatividad?» podría preguntar un vendedor. «¿Sería más intuitiva una nueva interfaz de usuario?» pregunta un director de producto. Pero esas preguntas no se pueden responder con datos históricos. Explorar esas ideas requiere realmente crear algo, lo que resultará caro. Y justificar el coste suele ser difícil, ya que no hay pruebas que sugieran que las ideas vayan a funcionar. Con su exploración de bajo coste y sus pruebas que reducen el riesgo, la ciencia de datos permite probar más cosas, lo que lleva a una mayor innovación.

Suena muy bien, ¿verdad? ¡Lo es! Pero no puede simplemente declarar como organización que «nosotros también lo haremos». Es una forma muy diferente de hacer las cosas. Tiene que crear un entorno en el que pueda prosperar.

En primer lugar, tiene que posicionar la ciencia de datos como una entidad propia. No lo esconda en otro departamento, como marketing, productos, finanzas, etc. En su lugar, que sea su propio departamento, que dependa del CEO. En algunos casos, el equipo de ciencia de datos tendrá que colaborar con otros departamentos para ofrecer soluciones. Pero lo hará como socios en igualdad de condiciones, no como un personal de apoyo que se limita a ejecutar lo que se les pida. En lugar de posicionar la ciencia de datos como un equipo de apoyo al servicio de otros departamentos, haga que sea responsable de los objetivos empresariales. Entonces, haga que rinda cuentas por alcanzar esos objetivos, pero deje que los científicos de datos propongan las soluciones.

Luego, tiene que equipar a los científicos de datos con todos los recursos técnicos que necesitan para ser autónomos. Necesitarán acceso total a los datos y a los recursos informáticos para procesar sus exploraciones. Exigirles que pidan permiso o soliciten recursos tendrá un coste y se realizará menos exploración. Mi recomendación es aprovechar una arquitectura de nube en la que los recursos de cálculo sean elásticos y casi infinitos.

Los científicos de datos deberán tener las habilidades necesarias para aprovisionar sus propios procesadores y llevar a cabo su propia exploración. Tendrán que ser grandes generalistas. La mayoría de las empresas dividen a sus científicos de datos en equipos de especialistas (por ejemplo, modeladores, ingenieros de aprendizaje automático, ingenieros de datos, analistas de inferencias causales, etc.) para centrarse más. Pero esto requerirá la participación de más personas para realizar cualquier exploración. Coordinar a varias personas se hace caro rápidamente. En su lugar, aproveche a los «científicos de datos completos» con las habilidades necesarias para realizar todas las funciones. Esto reduce el coste de probar cosas, ya que una sola iniciativa de retoques puede requerir cada una de las funciones de ciencia de datos que he mencionado. Por supuesto, los científicos de datos no pueden ser expertos en todo. Por lo tanto, tendrá que proporcionar una plataforma de datos que ayude a abstraerlos de las complejidades del procesamiento distribuido, el escalado automático, etc. De esta manera, el científico de datos se centra más en impulsar el valor empresarial mediante las pruebas y el aprendizaje, y menos en la tecnología.

Por último, necesita una cultura que apoye un proceso constante de aprendizaje y experimentación. Esto significa que toda la empresa debe tener valores comunes para cosas como aprender haciendo, sentirse cómoda con la ambigüedad, equilibrar la rentabilidad a largo y corto plazo. Estos valores deben compartirse en toda la organización, ya que no pueden sobrevivir de forma aislada.

Pero antes de lanzarse e implementar esto en su empresa, tenga en cuenta que será difícil, si no imposible, implementarlo en una empresa antigua. No estoy seguro de que hubiera funcionado, ni siquiera en Stitch Fix, si no hubiéramos permitido que la ciencia de datos fuera autónoma desde el principio. Llevo seis años y medio en Stitch Fix y, con un puesto en la mesa ejecutiva, la ciencia de datos nunca tuvo que «insertarse» en la organización. Más bien, la ciencia de datos nos fue nativa en los años de formación y, por lo tanto, las formas de trabajo necesarias nos son más naturales.

Esto no quiere decir que la ciencia de datos esté destinada al fracaso en las empresas más antiguas y maduras, aunque no cabe duda de que es más difícil que empezar de cero. Algunas empresas han podido llevar a cabo cambios milagrosos. Y es demasiado importante como para no intentarlo. Las ventajas de este modelo son sustanciales y, para cualquier empresa que quiera que la ciencia de datos sea una ventaja competitiva, vale la pena considerar si este enfoque puede funcionar para usted.