6 principios de visualización de datos efectiva

Principios clave para crear gráficos útiles e informativos



La visualización de datos es un paso esencial en el proceso de comprensión de la ciencia de datos. Aquí es donde presenta e informa sus resultados en un formato gráfico que es intuitivo y fácil de entender.



La visualización de datos requiere mucho trabajo, se necesita mucha limpieza y análisis para destilar y convertir datos sucios en hermosos gráficos y tablas. Pero incluso con los datos preparados, aún debe adherirse a ciertos principios o metodologías para crear gráficos útiles e informativos.



Sin embargo, al escribir este artículo, me inspiré en el libro Beautiful Evidence de Edward Taft, que contiene seis principios sobre cómo hacer que los gráficos de datos sean útiles. Son estos principios los que separan los gráficos útiles de los inútiles.



Este artículo también está muy inspirado en el Análisis de datos exploratorios de Roger D. Peng en R. Está disponible de forma gratuita en Bookdown y puede leerlo para obtener más información sobre EDA.



Echemos un vistazo más de cerca a estos principios.





Un ejemplo de visualización de datos en Our World in Data






1. Mostrar comparación (grupos de control y experimentales)



La demostración de la comparación es la base de una buena investigación científica. Las pruebas de una hipótesis siempre están relacionadas con otra cosa. Tomemos un ejemplo: usted dice: "El chocolate negro mejora la concentración y la capacidad de aprendizaje". La pregunta importante en esta declaración es "¿comparado con qué?" Sin comparación (hipótesis relativa), la afirmación es inútil.



Una forma de mostrar la comparación es con los grupos de control y de tratamiento. Las personas de un grupo comerán chocolate, las del segundo grupo no. De esta manera, puede comparar los efectos del chocolate en la concentración y la capacidad de aprendizaje basándose en los resultados de las pruebas o midiendo la actividad cerebral.



Al crear gráficos para la presentación de su investigación, puede representar gráficamente los grupos de control y tratamiento usando el cuadro del bigote. De esta forma, los lectores tienen una idea clara del efecto del experimento.



Al crear gráficos para representar su investigación, puede representar gráficamente los grupos de control y tratamiento utilizando un gráfico rectangular. De esta forma, los lectores se hacen una idea clara de las consecuencias del tratamiento.



2. Causalidad y explicación



Lo que sigue es una explicación que muestra la causalidad al pensar en la pregunta que está tratando de responder. Si ha demostrado que se obtiene un efecto en el grupo experimental pero no en el grupo de control, debe formular una hipótesis a partir de la evidencia de por qué esto es así.



Volviendo al ejemplo anterior, digamos que los sujetos del grupo experimental obtuvieron puntuaciones más altas en la prueba, lo que muestra que el chocolate amargo mejora la concentración. Una pregunta importante: ¿por qué es exactamente así?



Esta pregunta es importante porque ayuda a plantear otras preguntas que pueden refutar o respaldar su hipótesis a lo largo del estudio.



Para mostrar una relación o mecanismo causal, puede medir la actividad cerebral de los grupos de control y de tratamiento y graficar los resultados mostrándolos uno al lado del otro. Usando el gráfico de puntuación de la prueba y el gráfico de actividad cerebral, verá la razón por la cual los sujetos que tomaron chocolate recibieron las puntuaciones más altas, es decir, la respuesta a la pregunta de cómo el chocolate amargo mejora la función cognitiva.



3. Datos con muchas variables (más de dos variables)



El mundo real es complejo y la relación entre los dos eventos suele ser no lineal. Entonces, en la investigación, tienes atributos o variables que puedes medir. Todas estas variables interactúan entre sí de diferentes formas. Algunos de ellos pueden ser confusos , mientras que otros pueden ser atributos importantes que expliquen la relación de eventos.



Como ya sabe, la correlación no implica causalidad. Por lo tanto, no es una buena idea limitar su investigación a solo dos variables: esto conduce a conclusiones erróneas. Por lo tanto, debe mostrar la mayor cantidad de datos posible en sus gráficos. Esto puede ayudarlo a descubrir cualquier confusión en sus datos.



Toma la paradoja de Simpson, una paradoja en la estadística probabilística, cuando "cuando se combinan los grupos, desaparece la tendencia que aparece en diferentes grupos de datos". Para ilustrar:



  • Dos variables - relación negativa.

  • Tres variables tienen relación positiva (x, y, z) (hay variables confusas).



4. No permita que las herramientas dirijan su análisis



Un buen narrador sabe cómo captar la atención de las personas mientras cuenta una historia de manera productiva. El narrador no se limita a la historia en sí, sino que puede expresar la historia de una manera única, combinando diferentes percepciones e incluyendo múltiples imágenes, dando vida a la historia.



Asimismo, un buen visualizador de datos no se limita a las herramientas de visualización disponibles. La persona que visualiza los datos tiene la capacidad de cambiar de una forma de expresión (como líneas o círculos) a usar múltiples modos de presentación.



Por ejemplo, en lugar de crear informes que contengan solo texto, usa infografías: imágenes, cuadros, palabras, números, etc., todo esto enriquecerá la información. Con una gran cantidad de información y gráficos, los lectores pueden observar muchas correlaciones diferentes de evidencia en un solo lugar. Así que recuerda que estás contando una historia. No permita que las herramientas limiten su pensamiento. Deje que el análisis dirija las herramientas, creando gráficos asombrosos y ricos en evidencia.



5. Documente sus gráficos con etiquetas, escalas y fuentes de datos adecuadas



Cuando mira por primera vez un gráfico, primero ve el título y luego las etiquetas de contexto del gráfico. Sin ellos, el gráfico no dice nada. Los buenos informes / gráficos están debidamente documentados con escalas y etiquetas apropiadas asignadas a cada gráfico. Las fuentes de datos utilizadas para crear los gráficos también son fundamentales. Por lo tanto, es una buena práctica conservar el código que se utilizó para generar los datos y los gráficos: esto permite reproducir los datos. También agrega credibilidad a sus gráficos. Además, al guardar el código, puede editar el gráfico si es necesario.



6. El contenido es lo primero



En última instancia, independientemente de todos los principios anteriores, sin contenido de alta calidad, relevante y holístico, sus gráficos serán inútiles o engañosos. En otras palabras, "basura adentro, basura afuera". Antes de informar cualquier resultado, asegúrese de que el resultado sea algo interesante e importante. No importa cuán hermosos o visuales sean sus gráficos, nadie quiere resultados inútiles. Algo interesante es la experiencia personal o algo inspirado en Internet. En cualquier caso, haz siempre preguntas: así es como la idea se hace realidad.



Conclusión



La visualización de datos es una habilidad increíble. Puede tomar datos y convertirlos en hermosos gráficos y tramas que le cuenten a la gente una historia. En una era en la que los datos crecen exponencialmente, es cada vez más importante poder contar una historia con datos. Este es el mejor momento para aprender cosas nuevas. Y un resumen de los principios:



  1. Mostrar comparación.
  2. Muestre las razones.
  3. Muestra datos multidimensionales.
  4. Combine tanta evidencia como sea posible.
  5. Describe y documenta el horario.
  6. Asegúrese de que su historia sea interesante.


Lo que quiero que extraigas de este artículo es lo siguiente: recuerda siempre comenzar con una buena pregunta, adoptar el enfoque correcto y solo presentar la información necesaria para responder a tu buena pregunta.



Les dejo esta cita del matemático estadounidense John Tukey , quien marcó el comienzo de una nueva era de la estadística: 



Un simple gráfico traía más información a la mente de un analista de datos que cualquier dispositivo.


Para una comprensión más profunda de estos principios, recomiendo consultar el libro de Roger D. Peng "Análisis exploratorio de datos en R" (dejaré un enlace a él a continuación).



Recursos y enlaces



Si desea obtener más información sobre la visualización de datos, consulte estos excelentes libros gratuitos:





Plataformas que exhiben hermosas visualizaciones




Las guías para crear gráficos están disponibles en estos recursos.




Enlaces para este artículo




¡Gracias por leer!



imagen






Otras profesiones y cursos


















All Articles