PathMBA Vault

Design thinking

La ciencia de lo que sabemos (y no sabemos) sobre la visualización de datos

por Robert Kosara

La visualización es fácil, ¿verdad? Al fin y al cabo, son solo unas formas coloridas y unas cuantas etiquetas de texto. Pero las cosas son más complejas de lo que parece, en gran parte debido a la forma en que vemos y digieren los cuadros, gráficos y otras imágenes basadas en datos. Si bien existen estudios respaldados científicamente, hay muchas cosas que no sabemos sobre cómo y por qué funciona la visualización. Para ayudarle a tomar mejores decisiones a la hora de visualizar sus datos, he aquí un breve recorrido por la investigación.

Los primeros años de la comprensión de los datos
Si bien los primeros días de la visualización se remontan a más de 200 años, la investigación real para entender cómo funciona realmente no comenzó hasta la década de 1960. De Jacques Bertin Semiología gráfica ( Semiología de los gráficos), publicado en 1969, fue el primer tratamiento sistemático de las diferentes formas en que las representaciones gráficas codifican los datos. Bertin acuñó muchos términos del oficio, como el marcar, que es la unidad básica de toda visualización, como un sector de barras, líneas o círculos. También definió una serie de variables retinianas, que son las propiedades visuales que utilizamos para expresar los datos; incluyen el color, el tamaño, la ubicación, etc.

A principios de la década de 1980, los investigadores de los gráficos estadísticos y del naciente campo de la visualización (que aún no tenía su nombre). William Cleveland y Robert McGill realizaron experimentos para averiguar cuáles de las variables retinianas de Bertin eran las más adecuadas para determinados tipos de datos, mientras que Jock Mackinlay creó un sistema que utilizaba Bertin y su obra para crear visualizaciones a partir de los datos.

Gracias a Cleveland y McGill, sabemos que nuestra percepción es la más precisa cuando se trata de entender la ubicación de una marca, seguida de cerca por nuestra capacidad de percibir la longitud. Somos aún menos expertos en percibir el área y la orientación, y nuestra capacidad para distinguir los colores es aún peor. Podemos ver pequeñas diferencias de dirección entre líneas que son casi paralelas, pero no exactamente, pero nos cuesta cuantificar un ángulo para decir el porcentaje que representa en un gráfico circular. Podemos diferenciar menos de una docena de colores cuando sus tonos son muy distintos y podemos comparar con precisión los tonos de colores uno al lado del otro; pero si los separamos y los rodeamos de otros muy diferentes, todo se va por la ventana.

Todo esto puede parecer interesante, pero sus usos prácticos no son obvios. Para llevar la teoría a la práctica, Mackinlay creó un sistema que asignaba automáticamente los campos de datos a las variables visuales de forma que se optimizaba la legibilidad. La mayoría de las herramientas de visualización actuales todavía no ofrecen ese tipo de inteligencia, aunque las_¡Muéstreme!_ la función se basa en una idea muy similar.

Más conocimientos, más preguntas
Han pasado muchas cosas desde la década de 1980, pero parece que hay un poco de estancamiento en lo que respecta a la comprensión de lo básico. Hay muchas preguntas abiertas hoy en día y también nos damos cuenta de las lagunas y los problemas con algunos de los trabajos realizados.

Como ejemplo, Cleveland promovió la idea de llamar a la banca a 45 grados. La idea es simple: en un gráfico de líneas, la pendiente media debe ser de 45 grados. Eso tiene sentido desde el punto de vista intuitivo, ya que los gráficos con mucha pendiente suelen tener un aspecto demasiado dramático y los muy planos dificultan la visualización de cualquier cambio en los datos. La recomendación de Cleveland se basó en una investigación sobre qué tan bien podemos comparar las pendientes de las líneas. Descubrió que la mayor precisión se lograba cuando las líneas que se comparaban tenían una inclinación media de 45 grados.

Pero resulta que esa no es toda la verdad. El estudio de Cleveland tenía algunas limitaciones que hacían que 45 grados pareciera la mejor opción, pero parece que los ángulos menos profundos son mejores. Esto se mostró en un artículo de investigación que Justin Talbot, John Gerth y Pat Hanrahan publicaron en octubre de 2012 en la conferencia anual de VisWeek. El gráfico de líneas de la izquierda de abajo está más cerca de los 45 grados de media, pero el de la derecha, aunque es menos profundo, tiene menos áreas que producen errores importantes (que se indican con el color rojo oscuro).

degrees.jpg

Hay más. Mi exalumna Caroline Ziemkiewicz y yo descubrió que existe una posible interacción entre la metáfora visual utilizada para mostrar datos y la metáfora lingüística utilizada para hacer una pregunta. Lo encontramos al analizar las visualizaciones de árboles o jerarquías. Las dos técnicas de visualización más populares para este tipo de datos, mapas de árbol y diagramas de enlaces de nodos, difieren en la forma en que muestran la jerarquía. Los diagramas de enlace de nodos utilizan niveles (o «por encima»), mientras que los mapas de árbol utilizan el anidamiento. Una pregunta hecha con una metáfora de niveles («Cuál de los nodos por debajo del nodo D…») es más fácil de responder con el diagrama de enlaces de nodos, que utiliza una metáfora compatible, que una que se hace con la contención («Cuáles de los directorios del directorio D…»), que funciona mejor con los mapas de árboles. Las diferentes metáforas se ilustran a continuación, con mapas de árboles a la izquierda y diagramas de enlaces de nodos a la derecha.

treemap .jpg

Solo hemos arañado la superficie, hay muchas otras metáforas que se utilizan en la visualización, sean obvias o no. Barbara Tversky y Jeff Zacks encontrado a principios de la década de 2000, esas líneas implicaban transiciones, mientras que las barras implicaban valores individuales. La aparentemente sencilla elección entre un gráfico de barras y uno de líneas tiene implicaciones en la forma en que percibimos los datos.

Extrañamente, también lo hace la gravedad. En nuestro trabajo sobre metáforas, Ziemkiewicz y yo descubrimos que la gente interpretaba las formas redondas como inestables porque, según decían, podían enrollarse. Pero para rodar, debe haber una fuerza que provoque el movimiento. Tras estudiar un poco más este efecto, descubrimos que los puntos de un diagrama de dispersión se atraen entre sí y que, al parecer, son arrastrados hacia abajo por la gravedad. Recordamos los puntos no en el lugar en el que se encuentran en la trama, sino que los desplazamos hacia grupos de nuestra memoria y dejamos que se desvíen ligeramente hacia abajo.

Los hallazgos y las distinciones en la visualización pueden ser sutiles, pero pueden tener un profundo impacto en la forma en que leemos la información y en la forma en que la interpretamos. Queda mucho por aprender sobre el funcionamiento de la visualización y la mejor manera de representar, analizar y comunicar los datos.

Visualización de datos
Un HBR Insight Center