Visualización de datos

Visualización de datos
Subclase de Visualización ( en )
Parte de Ciencia de los datos
Gente clave William Playfair
Florence Nightingale
Charles Joseph Minard
John Tukey
Edward Tufte

La visualización de los datos (o DataViz o representación gráfica de los datos ) es un conjunto de métodos para resumir así gráfico de datos . La visualización de datos es parte de la ciencia de datos .

La visualización de datos nace en el XVIII °  siglo , sobre todo en la obra de William Playfair . Crece ampliamente en el XIX °  siglo con la invención de tarjetas de datos en los años 1820 y 1830 por Charles Dupin y André-Michel Guerry , la obra de Florence Nightingale y la segunda XIX °  siglo con el trabajo de Charles Joseph Minard (1881-70 ), Francis Amasa Walker  y Émile Cheysson . Finalmente, ella recibe un impulso de la segunda XX °  siglo bajo la dirección de John Tukey que pone de relieve el papel de la visualización de las estadísticas y de Edward Tufte y finalmente con el desarrollo de las digitales .

La visualización de datos se utiliza en particular en las estadísticas oficiales , en las ciencias , en el periodismo y más particularmente en el periodismo de datos y más en general en la ciencia de datos .

Historia

Es el final de la XVIII ª  siglo , con la publicación en 1786 por William Playfair (1759-1823) de un libro titulado La Comercial y Atlas política , en la que el autor traza una serie de gráficos de series de tiempo que representa la evolución de los datos económicos sobre Inglaterra y en particular la evolución de su balanza comercial durante el  siglo XVIII E , de la que nace la moderna representación gráfica de los datos. En el mismo libro, el autor también representa el primer gráfico de barras de la historia. También es a William Playfair a quien le debemos el primer gráfico circular conocido. Publicado en 1801 en The Statistical Breviario , el gráfico representa el área, la cantidad de ingresos y la cantidad de impuestos de cada país.

En 1819 el historiador Jean Picot publicó en Ginebra un volumen titulado Estadísticas de Suiza o Estado de este país y de los veintidós cantones que lo componen [...] . Contiene en una hoja desplegable dos gráficos basados ​​en datos de Johannes Fehr: "Extensión comparativa o área de los veintidós cantones de Suiza representada por la longitud de las líneas trazadas junto al nombre de cada cantón" y " Población comparada de los veintidós cantones de Suiza representada por la longitud de las líneas trazadas junto al nombre de cada cantón ”.

En la década de 1820, comenzamos a representar datos estadísticos en un mapa. En 1826, Charles Dupin trazó un mapa coroplético de la educación popular en Francia , coloreando los departamentos franceses según la intensidad de la variable representada. Esta representación visual tuvo un rápido éxito y fue inmediatamente retomada por André-Michel Guerry y Adriano Balbi, quienes trazaron mapas coropletas de la investigación, el número de delitos contra la propiedad y el número de delitos contra las personas, luego por Guerry en su Ensayo. las estadísticas morales de Francia publicadas en 1833. Poco después, Armand Joseph Frère de Montizon propuso el primer " mapa de puntos" , con una representación de la población francesa por departamento titulado Carte Philosophique que muestra la población de Francia . En 1855, el médico británico John Snow elaboró ​​un mapa de puntos de cólera en Londres en el que representaba la ubicación de los muertos y la ubicación de los puntos de agua en la ciudad de Londres, destacando así el hecho de que la epidemia se propagaba por el agua. En 1861, Charles Joseph Minard propuso representar los datos en un mapa mediante diagramas circulares cuya área es proporcional a la cantidad representada ( Ejemplo del mapa figurativo y aproximado de las cantidades de carne de carnicero enviadas en pie por los departamentos y consumidores ).

En 1857, Florence Nightingale publicó su Diagrama de las causas de mortalidad dentro del ejército en Oriente . El gráfico muestra que los soldados ingleses involucrados en la Guerra de Crimea no mueren en combate frente al enemigo sino que son víctimas de las condiciones sanitarias en las que viven.

En 1889, Charles Booth combinó un enfoque etnográfico a gran escala y una visualización en forma cartográfica para informar sobre las condiciones de vida en Londres. Este estudio sociológico, uno de los más importantes de su tipo, movilizó a un equipo de investigadores pagados por Booth para recolectar datos a nivel de cada parcela catastral. La visualización propuesta por Stand detalla, por colores, 7 "clases". La visualización permite identificar clústeres, en particular para la clase más baja que Booth llama "clase baja". Vicioso, semi-criminal ”.

Durante la segunda mitad del XIX °  siglo , nos encontramos con una serie de innovaciones importantes, como las visualizaciones primas en tres dimensiones del italiano Luigi Perozzo o alemán Gustav Zeuner .

En el Reino Unido, fue Francis Galton quien realizó una importante contribución a la visualización de datos al ofrecer representaciones gráficas de la correlación entre dos variables ( nube de puntos ) pero también mapas meteorológicos. .

En la primera XX XX  siglo , los estadísticos están prestando menos atención a la visualización de datos.

En la década de 1960, John Tukey dio a la visualización de datos en estadística sus letras de nobleza, en particular con su libro Exploratory Data Analysis (1977).

En 2005, Leland Wilkinson publicó The Grammar of Graphics , uno de los trabajos teóricos más importantes sobre el diseño de gráficos estadísticos. Wilkinson define un gráfico estadístico como una correspondencia entre datos y atributos estéticos (color, forma, tamaño, etc.) de objetos geométricos (puntos, líneas, barras, etc.).

Estructura de una visualización

Una visualización se compone de un elemento visual, una escala, un sistema de coordenadas y un contexto.

En una nube de puntos , usamos la posición de los puntos en el espacio como un elemento visual que representa los datos. En un gráfico de barras, la longitud de las barras es el elemento visual correspondiente a los datos.

El sistema de coordenadas puede ser cartesiano, polar o geográfico.

La escala puede ser lineal o logarítmica cuando es una variable cuantitativa, categórica cuando es una variable categórica o temporal cuando es el momento.

Tipología según las formas representadas

Gráfico de barras

Para un gráfico de barras verticales, representamos para cada modalidad de una variable discreta un rectángulo cuya altura representa el valor de una variable continua y cuyo ancho no tiene interpretación estadística.

Para un gráfico de barras horizontales, es el ancho del rectángulo que representa el valor de la variable continua y la altura de este rectángulo que no tiene interpretación estadística.

También es común encontrar gráficos de barras apiladas .

Diagrama circular

El gráfico circular puede ser un gráfico circular o un gráfico de anillos .

El gráfico circular o de tarta se utiliza para representar proporciones. En un gráfico circular, es el ángulo que representa la participación de cada categoría en un todo.

El gráfico de anillos es un gráfico circular con un agujero en el medio. En este caso, es la longitud del arco de un círculo correspondiente a cada categoría lo que representa la participación de cada categoría en el conjunto representado.

Una nube de puntos

El diagrama de dispersión se usa comúnmente para representar la relación entre dos variables. En una nube de puntos, son las coordenadas de cada punto en el eje xy el eje y las que representan los valores de cada una de las variables. Permite resaltar una correlación entre dos variables.

Línea

Un gráfico lineal o lineal es una nube de puntos en la que los puntos se han conectado entre sí (con una interpolación que puede ser lineal, cúbica ...).

Burbujas

También podemos graficar datos cuantitativos usando burbujas en las que el área de las burbujas es proporcional al tamaño representado.

Mapa de calor

Un mapa de calor (mapa de calor, mapa de calor) es una matriz cuyas celdas están coloreadas según el valor de la variable representada.

Diagrama de caja

El diagrama de caja y bigotes resume solo algunas características posicionales del rasgo estudiado (mediana, cuartiles, mínimo / máximo o deciles). Se utiliza principalmente para comparar el mismo rasgo en dos poblaciones de diferentes tamaños. Se trata de dibujar un rectángulo que vaya del primer cuartil al tercer cuartil y corte por la mediana. A veces, los segmentos se agregan en los extremos que conducen a los valores mínimo / máximo o al primer y noveno decil. Esto se llama diagrama de caja o diagrama de piernas.

Minigráficos

Los minigráficos son un formato desarrollado por Edward Tufte para minigráficos que se pueden insertar en el texto de una página.

Tufte describe los minigráficos como "gráficos intensivos en datos, de diseño simple y del tamaño de una palabra". Si bien el gráfico típico está diseñado para mostrar la mayor cantidad de datos posible y se coloca fuera del flujo de texto, los minigráficos son concisos, memorables y están ubicados con precisión en el lugar correcto.

Tipología según el tipo de datos representados

Visualización de datos temporales

El gráfico de series de tiempo representa la evolución de una variable a lo largo del tiempo. Es la representación gráfica más utilizada y su interpretación es generalmente muy intuitiva.

Si la serie de tiempo es discreta, es común usar un gráfico de barras simple para representarla. Por ejemplo, los datos anuales o mensuales a menudo se representan mediante gráficos de barras. Por otro lado, si los datos son continuos, es más común representarlos mediante un gráfico de líneas o un gráfico de áreas , como hizo William Playfair en su Atlas comercial y político (ver aquí y aquí ).

Visualización de datos geolocalizados

Se utiliza un mapa estadístico para representar el valor de una variable estadística en cada una de las unidades geográficas de una entidad global. El mapa estadístico tiene la ventaja de poder revelar un análisis global al mismo tiempo que permite a todos ubicar los detalles de cada unidad geográfica. Por otro lado, tiene el defecto de darle a cada unidad geográfica una importancia proporcional a su área, mientras que en muchas situaciones sería preferible que la importancia que se le da a cada unidad geográfica sea relativa a otra variable, como su área. por ejemplo.

Mientras que los mapas se inventaron hay más de 5000 años, las estadísticas cartas son en realidad sólo surgieron en la XVII ª  siglo . En 1686, Edmond Halley representa un mapa del mundo con símbolos que permiten dar el origen y especialmente la intensidad de los vientos. Más tarde, en el XIX °  siglo , John Snow, es un mapa de Londres localizando el número de muertos por cólera durante la epidemia en septiembre de 1854 y puntos de acceso al agua en la ciudad. Su mapa muestra que el cólera se transmite por agua.

Visualización de la relación entre varias variables

Para representar la relación entre dos variables, es común utilizar un diagrama de dispersión .

Cuando hay más de dos variables, hay muchas soluciones. La solución más simple es representar una matriz de nubes de puntos. También puede utilizar un gráfico de burbujas en el que, como en un diagrama de dispersión, las coordenadas de las burbujas representan los valores de dos variables y en el que el área de las burbujas representa una tercera variable.

Visualización de proporciones

Visualización de una distribución estadística

En el caso discreto, es común utilizar un gráfico de barras donde la altura de cada rectángulo representa los números o frecuencias asociadas a cada modalidad.

Ver una estructura de árbol

Cuando los datos tienen una estructura jerárquica, se pueden representar en forma de dendrograma , un mapa de árbol o incluso un resplandor solar .

Mapa de árbol

El treemap es una representación visual inventada por Ben Shneiderman en 1990 para representar la ocupación del espacio en su disco duro. En esta representación, es la superficie de cada rectángulo la que representa la parte de cada elemento en el todo. Esta representación se utilizó posteriormente para otros fines. Por ejemplo, Martin Wattenberg lo utilizó para representar un "mapa de mercado" por industria en el que el área de cada rectángulo es proporcional a la capitalización de mercado de las empresas de la industria. Marcos Westamp diseñó un treemap de información en el que el tamaño de los rectángulos es función del número de artículos dedicados al tema en la prensa. Matthew Bloch, Shan Carter y Amanda Cox utilizaron un mapa de árbol para visualizar la participación de cada tipo de bien en el consumo de un hogar estadounidense y un código de colores para visualizar la inflación.

Visualización de red

Filippo Menczer (Universidad de Indiana) fue el primero en descubrir la actividad de los bots en Twitter en 2010 a través de una visualización de red. El análisis de red ahora se usa para visualizar la formación de burbujas de filtro.

Visualización de flujo

El diagrama de flujo es un tipo específico de representación para visualizar flujos  .

Representación de la fuerza laboral acumulada

Para las variables continuas, podemos trazar el polígono de los números acumulados (o frecuencias) . El principio de la trama se explica en el artículo Estadísticas elementales continuas . Este polígono permite leer muy rápidamente el efectivo de un intervalo de la forma y, por diferencia, el efectivo de cualquier intervalo. También le permite leer cuartiles y deciles muy rápidamente . Esta representación prefigura la gráfica de la función de distribución de probabilidad .

A veces vemos aparecer un polígono de números acumulativos para variables discretas. Estrictamente hablando, sería necesario dibujar un diagrama de escalera.

Bibliografía

Videografia

Exposiciones

Notas y referencias

Notas

  1. Edward Tufte habla de mapas de datos  " , literalmente "mapas de datos"

Referencias

  1. Victorin Chevallier, "  Obituario del Sr. Minard, inspector general de puentes y carreteras, jubilado  ", Annales des Ponts et Chaussées: Mémoires et documents , París, Dunod , vol.  II de la 5 ª  serie, 2 e sem. 1871, pág.  1–22
  2. "  Biografía de Charles Joseph Minard  " ( ArchivoWikiwixArchive.isGoogle • ¿Qué hacer? ) (Consultado el 20 de octubre de, 2014 ) en el 19 º .org, sitio dedicado a la historia de la 19 ª  siglo
  3. Charles Joseph Minard: Mapeo de marzo de Napoleón, 1861 por John Corbett, Centro de Ciencias Sociales Integradas Espacialmente
  4. Michael Friendly , "Una breve historia de la visualización de datos", en Manual de visualización de datos ,2008( DOI  10.1007 / 978-3-540-33037-0_2 ) , pág.  19
  5. Tufte , 2001 , p.  9
  6. Amistoso 2008 , p.  9-10
  7. Tufte , 2001 , p.  33
  8. Amistoso 2008 , p.  39
  9. Adriano Balbi y André-Michel Guerry , Estadísticas comparativas del estado de la educación y el número de delitos en los distintos distritos de academias y cortes reales de Francia , París, Jules Renouard,1829
  10. Jean-Paul Bord ( ed. ) Y Pierre-Robert Baduel ( ed. ), Los mapas del conocimiento , Khartala,2004, p.  593
  11. Friendly 2008 , p.  27
  12. Amistoso 2008 , p.  30
  13. "  Esta investigación de mercado tiene 120 años y combina Big Data y cualitativo  " , en Conseils en marketing ,22 enero 2018(consultado el 7 de diciembre de 2020 )
  14. Amistoso 2008 , p.  32
  15. Amistoso 2008 , p.  37
  16. Tufte , 2001 , p.  53
  17. (en) Hadley Wickham , Ggplot2: Gráficos elegantes para el análisis de datos , Springer Verlag, al.  "Usar R",2009( DOI  10.1007 / 978-0-387-98141-3 )
  18. Yau 2013 , p.  93
  19. Yau , 2013 , p.  96
  20. Yau , 2013 , p.  104
  21. Yau , 2013 , p.  109
  22. Yau , 2011 , p.  94
  23. Yau , 2011 , p.  137
  24. Yau , 2011 , p.  142
  25. Tufte , 2001 , p.  44
  26. Yau , 2011 , p.  112
  27. Yau 2011 , p.  180-181
  28. Yau , 2011 , p.  118
  29. Yau 2011 , p.  192-193
  30. Toussaint Loua , Atlas estadístico de la población de París . París: J. Dejey. 1873
  31. Yau , 2011 , p.  229
  32. Yau , 2011 , p.  93
  33. Tufte , 2001 , p.  16-20
  34. Tufte , 2001 , p.  20-24
  35. Yau , 2011 , p.  188-189
  36. (in) Isabel Meirelles , Diseño para la información , Rockport Publishers ,2013, p.  18
  37. Yau , 2011 , p.  157
  38. Meirelles 2013 , p.  31
  39. Meirelles 2013 , p.  39
  40. "  Newmap  " , en newsmap.jp (consultado el 9 de diciembre de 2013 )
  41. (en) Matthew Bloch , Shan Carter y Amanda Cox , "  Todas las pequeñas partes de la inflación  " , The New York Times ,3 de mayo de 2008( leer en línea )
  42. Meirelles 2013 , p.  44
  43. "  4 razones por las que las redes sociales nos manipulan  " , en Consejos de marketing ,30 de septiembre de 2020(consultado el 7 de diciembre de 2020 )
  44. Martin Grandjean , "El  conocimiento es una red  ", Les Cahiers du Numérique , vol.  10, n o  3,2014, p.  37-54 ( leído en línea , consultado el 15 de octubre de 2014 )
  45. http://www.davidbihanic.com/exhibition/
  46. https://exhibits.stanford.edu/dataviz

Ver también

Artículos relacionados

enlaces externos