Publicado el Deja un comentario

Las mejores técnicas de visualización de datos para small y large data

La visualización de datos es usada en muchas áreas para modelar eventos complejos y visualizar fenómenos que no pueden ser observados directamente, tales como patrones de clima, condiciones medicas o relaciones matemáticas. En este post podrás conocer sobre herramientas y técnicas básicas de visualización.

Traducción del articulo: Best Data Visualization Techniques for small and large data

Los investigadores están de acuerdo que la visión es el sentido mas importante: 80-85% de la información que percibimos o que aprendemos es mediante la visión. Ese porcentaje incluso se puede elevar si tratamos de entender o interpretar datos, cuando buscamos relaciones entre una cantidad de cientos o miles de variables para determinar su importancia relativa. Una de las formas efectivas de encontrar relaciones importantes, es por medio del análisis avanzado y la simpleza de la representación gráfica.

La visualización de datos es aplicable prácticamente en todas las ramas del conocimiento. Los científicos de varias disciplinas usan técnicas de computación para modelar eventos complejos y visualizar fenómenos que no pueden ser observados directamente, como los patrones de clima, condiciones médicas, o relaciones matemáticas.

La visualización de datos provee una caja de herramientas y técnicas para tener un entendimiento cualitativo. Las técnicas básicas enfocadas en uso de gráficos se pueden resumir en lo siguiente:

Line Plot

La más simple de las técnicas, una gráfica de líneas (line plot) es usada para relación de campos o para representar la relación entre dos variables (x,y). Para una gráfica de relación entre dos variables, podemos simplemente utilizar la técnica de line plot.

Fuente del Gráfico: https://www.kdnuggets.com/

Gráficos de Barras (Bar Chart)

El gráfico de barras es usado para comparar los valores cuantitativos de diferentes categorías o grupos. Los valores de la categoría son representados con la ayuda de barras y pueden tener una orientación horizontal o vertical, y dependiendo del enfoque las barras pueden tomar una altura o grosor de acuerdo a los valores.

Gráfico de pastel y Gráfico de anillo (Pie and Donut Charts)

Hay mucho debate sobre el valor que aportan los gráficos de pastel y gráficos de anillo. Como regla hay usos de estos gráficos para comparar partes de un todo, son muy efectivos cuando solo hay un limitado numero de componentes a comparar añadiendo el porcentaje de participación y las leyendas que describen los datos fácilmente consigues un gráfico circular. Sin embargo, estos gráficos pueden ser difíciles de interpretar porque el ojo humano tarda un poco en estimar las áreas y los ángulos que se están comparando.

Fuente del Gráfico: https://www.kdnuggets.com/

Histograma (Histogram Plot)

Un histograma, representa la distribución de variables continuas sobre un intervalo o periodo de tiempo, es una técnicas de visualización de datos muy utilizada en machine learning. Este tipo de gráfico divide los datos en intervalos llamados ‘bins’, en español sería contenedores. Nos ayudan a inspeccionar la distribución de frecuencias subyacentes, los valores atípicos, la simetría, etc.

Fuente del Gráfico: https://www.kdnuggets.com/

Gráfico de dispersión (Sacatter Plot)

Otra de las técnicas de visualización más comunes es el grafico de dispersión, es un diagrama bidimensional que representa la variación conjunta de dos variables. Cada marcador (símbolo como punto, cuadrados y signos de más) representan una observación. La posición del marcador indica el valor de cada observación, cuando se incluye más de dos medidas obtenemos una matriz que representada por una serie de diagramas de dispersión que muestran cada posible emparejamiento de las medidas asignadas a la visualización. Los diagramas de dispersión de utilizan para examinar la relación o correlación entre las variables X e Y.

Fuente del Gráfico: https://www.kdnuggets.com/

Visualización de Big Data

Hoy, cada organización recolecta datos a cada minuto. Esa gigantesca cantidad de datos es conocida como Big Data, conjuntamente ha traído nuevos desafíos en la visualización a causa de la velocidad, tamaño y diversidad de la información que se debe tomar en cuenta a la hora de realizar el análisis. El volumen, variedad y velocidad a la que se generan los datos en la organización los ha llevado a salir de su zona de confort tecnológica, haciendo necesario adoptar modelos de inteligencia de negocios para tomar decisiones efectivas. Las nuevas y más sofisticadas técnicas de visualización de datos, se fundamentan en las técnicas básicas de análisis de datos, tienen en cuenta no solo la cardinalidad, sino también la estructura y origen de los datos.

Cajas o Gráficos de bigote (Box and Whisker Plot for Large Data)

Un diagrama de caja o gráfico de bigote muestra la distribución de una gran cantidad de datos para verificar fácilmente valores atípicos. En esencia es la representación gráfica de cinco estadísticos ( mínimo, cuartil inferior, mediana, cuartil superior y máximo) que resumen la distribución de un conjunto de datos. El cuartil inferior (percentil 25) está representado por el borde inferior de la caja, y el cuartil superior (percentil 75) esta representando por el borde superior de la caja. La mediana (percentil 50) está representado por una línea central que divide la caja en secciones. Los valores extremos están representados por bigotes que se extienden desde los bordes de la caja. Los diagramas de caja menudo se usan para detectar los valores atípicos en los datos.

Fuente del Gráfico: https://www.kdnuggets.com

Nube de palabras y diagrama de red para datos no estructurados

La variedad de biga data existente ha traído una serie de desafíos a causa de datos semiestructurados o sin ninguna estructura, que requieren nuevas técnicas de visualización. La nube de palabras representa de manera visual la frecuencia con la que aparecen palabras, por ejemplo en un análisis en twitter, cada palabra se va extendiendo en la grafica de nube. Esta técnica es usada en datos no estructurados siendo una forma de visualizar las palabras que aparecen con mayor o menor frecuencia.

Fuente del Gráfico: https://www.kdnuggets.com/

Otra técnica de visualización que podemos usar para datos semiestructurados o no estructurados es el diagrama de red. El diagrama de red representa las relaciones como nodos (actores individuales dentro de la red) y vínculos (relaciones entro los individuos). Generalmente se utilizan para el análisis de redes sociales o para la cartografía de ventas en áreas geográficas.

Fuente del Gráfico: https://www.kdnuggets.com/

Matriz de correlación

Una matriz de correlación permite de identificar rápidamente la relación entre variables que combinan big data y respuestas en tiempo real. Básicamente una matriz de correlación es una tabla que muestra los coeficientes de correlación entre variables: cada celda de la tabla representa la relación entre dos variables. Las matrices de correlación se utilizan como una forma de resumir datos, es la entrada de una análisis mas avanzado y como un diagnostico inicial.

La visualización de datos es una habilidad esencial en la carrera de un analista de datos, o data science, dependerá del volumen de datos la técnica decidas usar.

Si te gustó este post te invito a suscribirte a nuestro portal, recibirás información valiosa sobre tecnologías o técnicas de análisis de datos.

Lo que un hombre piensa de sí mismo, esto es lo que determina, o más bien indica, su destino.” – H.D. Thoreau

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *