Subclase de | Visualización ( en ) |
---|---|
Parte de | Ciencia de los datos |
Gente clave |
William Playfair Florence Nightingale Charles Joseph Minard John Tukey Edward Tufte |
La visualización de los datos (o DataViz o representación gráfica de los datos ) es un conjunto de métodos para resumir así gráfico de datos . La visualización de datos es parte de la ciencia de datos .
La visualización de datos nace en el XVIII ° siglo , sobre todo en la obra de William Playfair . Crece ampliamente en el XIX ° siglo con la invención de tarjetas de datos en los años 1820 y 1830 por Charles Dupin y André-Michel Guerry , la obra de Florence Nightingale y la segunda XIX ° siglo con el trabajo de Charles Joseph Minard (1881-70 ), Francis Amasa Walker y Émile Cheysson . Finalmente, ella recibe un impulso de la segunda XX ° siglo bajo la dirección de John Tukey que pone de relieve el papel de la visualización de las estadísticas y de Edward Tufte y finalmente con el desarrollo de las digitales .
La visualización de datos se utiliza en particular en las estadísticas oficiales , en las ciencias , en el periodismo y más particularmente en el periodismo de datos y más en general en la ciencia de datos .
Es el final de la XVIII ª siglo , con la publicación en 1786 por William Playfair (1759-1823) de un libro titulado La Comercial y Atlas política , en la que el autor traza una serie de gráficos de series de tiempo que representa la evolución de los datos económicos sobre Inglaterra y en particular la evolución de su balanza comercial durante el siglo XVIII E , de la que nace la moderna representación gráfica de los datos. En el mismo libro, el autor también representa el primer gráfico de barras de la historia. También es a William Playfair a quien le debemos el primer gráfico circular conocido. Publicado en 1801 en The Statistical Breviario , el gráfico representa el área, la cantidad de ingresos y la cantidad de impuestos de cada país.
En 1819 el historiador Jean Picot publicó en Ginebra un volumen titulado Estadísticas de Suiza o Estado de este país y de los veintidós cantones que lo componen [...] . Contiene en una hoja desplegable dos gráficos basados en datos de Johannes Fehr: "Extensión comparativa o área de los veintidós cantones de Suiza representada por la longitud de las líneas trazadas junto al nombre de cada cantón" y " Población comparada de los veintidós cantones de Suiza representada por la longitud de las líneas trazadas junto al nombre de cada cantón ”.
En la década de 1820, comenzamos a representar datos estadísticos en un mapa. En 1826, Charles Dupin trazó un mapa coroplético de la educación popular en Francia , coloreando los departamentos franceses según la intensidad de la variable representada. Esta representación visual tuvo un rápido éxito y fue inmediatamente retomada por André-Michel Guerry y Adriano Balbi, quienes trazaron mapas coropletas de la investigación, el número de delitos contra la propiedad y el número de delitos contra las personas, luego por Guerry en su Ensayo. las estadísticas morales de Francia publicadas en 1833. Poco después, Armand Joseph Frère de Montizon propuso el primer " mapa de puntos" , con una representación de la población francesa por departamento titulado Carte Philosophique que muestra la población de Francia . En 1855, el médico británico John Snow elaboró un mapa de puntos de cólera en Londres en el que representaba la ubicación de los muertos y la ubicación de los puntos de agua en la ciudad de Londres, destacando así el hecho de que la epidemia se propagaba por el agua. En 1861, Charles Joseph Minard propuso representar los datos en un mapa mediante diagramas circulares cuya área es proporcional a la cantidad representada ( Ejemplo del mapa figurativo y aproximado de las cantidades de carne de carnicero enviadas en pie por los departamentos y consumidores ).
En 1857, Florence Nightingale publicó su Diagrama de las causas de mortalidad dentro del ejército en Oriente . El gráfico muestra que los soldados ingleses involucrados en la Guerra de Crimea no mueren en combate frente al enemigo sino que son víctimas de las condiciones sanitarias en las que viven.
En 1889, Charles Booth combinó un enfoque etnográfico a gran escala y una visualización en forma cartográfica para informar sobre las condiciones de vida en Londres. Este estudio sociológico, uno de los más importantes de su tipo, movilizó a un equipo de investigadores pagados por Booth para recolectar datos a nivel de cada parcela catastral. La visualización propuesta por Stand detalla, por colores, 7 "clases". La visualización permite identificar clústeres, en particular para la clase más baja que Booth llama "clase baja". Vicioso, semi-criminal ”.
Durante la segunda mitad del XIX ° siglo , nos encontramos con una serie de innovaciones importantes, como las visualizaciones primas en tres dimensiones del italiano Luigi Perozzo o alemán Gustav Zeuner .
En el Reino Unido, fue Francis Galton quien realizó una importante contribución a la visualización de datos al ofrecer representaciones gráficas de la correlación entre dos variables ( nube de puntos ) pero también mapas meteorológicos. .
En la primera XX XX siglo , los estadísticos están prestando menos atención a la visualización de datos.
En la década de 1960, John Tukey dio a la visualización de datos en estadística sus letras de nobleza, en particular con su libro Exploratory Data Analysis (1977).
En 2005, Leland Wilkinson publicó The Grammar of Graphics , uno de los trabajos teóricos más importantes sobre el diseño de gráficos estadísticos. Wilkinson define un gráfico estadístico como una correspondencia entre datos y atributos estéticos (color, forma, tamaño, etc.) de objetos geométricos (puntos, líneas, barras, etc.).
Una visualización se compone de un elemento visual, una escala, un sistema de coordenadas y un contexto.
En una nube de puntos , usamos la posición de los puntos en el espacio como un elemento visual que representa los datos. En un gráfico de barras, la longitud de las barras es el elemento visual correspondiente a los datos.
El sistema de coordenadas puede ser cartesiano, polar o geográfico.
La escala puede ser lineal o logarítmica cuando es una variable cuantitativa, categórica cuando es una variable categórica o temporal cuando es el momento.
Para un gráfico de barras verticales, representamos para cada modalidad de una variable discreta un rectángulo cuya altura representa el valor de una variable continua y cuyo ancho no tiene interpretación estadística.
Para un gráfico de barras horizontales, es el ancho del rectángulo que representa el valor de la variable continua y la altura de este rectángulo que no tiene interpretación estadística.
También es común encontrar gráficos de barras apiladas .
Las importaciones y exportaciones de Escocia entre la Navidad de 1780 y la Navidad de 1781. Este es el primer gráfico de barras de la historia. Fue publicado por William Playfair en su libro The Commercial and Political Atlas (1786).
Gráficos de barras en el ensayo sobre las estadísticas morales de Francia de André-Michel Guerry , tablero VII 1833
El gráfico circular puede ser un gráfico circular o un gráfico de anillos .
El gráfico circular o de tarta se utiliza para representar proporciones. En un gráfico circular, es el ángulo que representa la participación de cada categoría en un todo.
El gráfico de anillos es un gráfico circular con un agujero en el medio. En este caso, es la longitud del arco de un círculo correspondiente a cada categoría lo que representa la participación de cada categoría en el conjunto representado.
Gráficos circulares publicados por William Playfair en The Statistical Breviary (1801). Los círculos representan el área de cada país. Las líneas a la izquierda de cada círculo representan la población (en millones de personas) y las líneas a la derecha representan el total de impuestos recaudados (en millones de libras esterlinas). La línea de puntos conecta la línea de ingresos y la línea de impuestos. Su pendiente no tiene interpretación pero la señal de pendiente sí. El gráfico muestra que en Gran Bretaña los impuestos totales en comparación con la población son más altos que en otros países.
El diagrama de dispersión se usa comúnmente para representar la relación entre dos variables. En una nube de puntos, son las coordenadas de cada punto en el eje xy el eje y las que representan los valores de cada una de las variables. Permite resaltar una correlación entre dos variables.
Un gráfico lineal o lineal es una nube de puntos en la que los puntos se han conectado entre sí (con una interpolación que puede ser lineal, cúbica ...).
También podemos graficar datos cuantitativos usando burbujas en las que el área de las burbujas es proporcional al tamaño representado.
Un mapa de calor (mapa de calor, mapa de calor) es una matriz cuyas celdas están coloreadas según el valor de la variable representada.
El diagrama de caja y bigotes resume solo algunas características posicionales del rasgo estudiado (mediana, cuartiles, mínimo / máximo o deciles). Se utiliza principalmente para comparar el mismo rasgo en dos poblaciones de diferentes tamaños. Se trata de dibujar un rectángulo que vaya del primer cuartil al tercer cuartil y corte por la mediana. A veces, los segmentos se agregan en los extremos que conducen a los valores mínimo / máximo o al primer y noveno decil. Esto se llama diagrama de caja o diagrama de piernas.
Los minigráficos son un formato desarrollado por Edward Tufte para minigráficos que se pueden insertar en el texto de una página.
Tufte describe los minigráficos como "gráficos intensivos en datos, de diseño simple y del tamaño de una palabra". Si bien el gráfico típico está diseñado para mostrar la mayor cantidad de datos posible y se coloca fuera del flujo de texto, los minigráficos son concisos, memorables y están ubicados con precisión en el lugar correcto.
El gráfico de series de tiempo representa la evolución de una variable a lo largo del tiempo. Es la representación gráfica más utilizada y su interpretación es generalmente muy intuitiva.
Si la serie de tiempo es discreta, es común usar un gráfico de barras simple para representarla. Por ejemplo, los datos anuales o mensuales a menudo se representan mediante gráficos de barras. Por otro lado, si los datos son continuos, es más común representarlos mediante un gráfico de líneas o un gráfico de áreas , como hizo William Playfair en su Atlas comercial y político (ver aquí y aquí ).
Se utiliza un mapa estadístico para representar el valor de una variable estadística en cada una de las unidades geográficas de una entidad global. El mapa estadístico tiene la ventaja de poder revelar un análisis global al mismo tiempo que permite a todos ubicar los detalles de cada unidad geográfica. Por otro lado, tiene el defecto de darle a cada unidad geográfica una importancia proporcional a su área, mientras que en muchas situaciones sería preferible que la importancia que se le da a cada unidad geográfica sea relativa a otra variable, como su área. por ejemplo.
Mientras que los mapas se inventaron hay más de 5000 años, las estadísticas cartas son en realidad sólo surgieron en la XVII ª siglo . En 1686, Edmond Halley representa un mapa del mundo con símbolos que permiten dar el origen y especialmente la intensidad de los vientos. Más tarde, en el XIX ° siglo , John Snow, es un mapa de Londres localizando el número de muertos por cólera durante la epidemia en septiembre de 1854 y puntos de acceso al agua en la ciudad. Su mapa muestra que el cólera se transmite por agua.
Para representar la relación entre dos variables, es común utilizar un diagrama de dispersión .
Cuando hay más de dos variables, hay muchas soluciones. La solución más simple es representar una matriz de nubes de puntos. También puede utilizar un gráfico de burbujas en el que, como en un diagrama de dispersión, las coordenadas de las burbujas representan los valores de dos variables y en el que el área de las burbujas representa una tercera variable.
En el caso discreto, es común utilizar un gráfico de barras donde la altura de cada rectángulo representa los números o frecuencias asociadas a cada modalidad.
Cuando los datos tienen una estructura jerárquica, se pueden representar en forma de dendrograma , un mapa de árbol o incluso un resplandor solar .
Mapa de árbolEl treemap es una representación visual inventada por Ben Shneiderman en 1990 para representar la ocupación del espacio en su disco duro. En esta representación, es la superficie de cada rectángulo la que representa la parte de cada elemento en el todo. Esta representación se utilizó posteriormente para otros fines. Por ejemplo, Martin Wattenberg lo utilizó para representar un "mapa de mercado" por industria en el que el área de cada rectángulo es proporcional a la capitalización de mercado de las empresas de la industria. Marcos Westamp diseñó un treemap de información en el que el tamaño de los rectángulos es función del número de artículos dedicados al tema en la prensa. Matthew Bloch, Shan Carter y Amanda Cox utilizaron un mapa de árbol para visualizar la participación de cada tipo de bien en el consumo de un hogar estadounidense y un código de colores para visualizar la inflación.
Filippo Menczer (Universidad de Indiana) fue el primero en descubrir la actividad de los bots en Twitter en 2010 a través de una visualización de red. El análisis de red ahora se usa para visualizar la formación de burbujas de filtro.
El diagrama de flujo es un tipo específico de representación para visualizar flujos .
Para las variables continuas, podemos trazar el polígono de los números acumulados (o frecuencias) . El principio de la trama se explica en el artículo Estadísticas elementales continuas . Este polígono permite leer muy rápidamente el efectivo de un intervalo de la forma y, por diferencia, el efectivo de cualquier intervalo. También le permite leer cuartiles y deciles muy rápidamente . Esta representación prefigura la gráfica de la función de distribución de probabilidad .
A veces vemos aparecer un polígono de números acumulativos para variables discretas. Estrictamente hablando, sería necesario dibujar un diagrama de escalera.