Publicado el Deja un comentario

Tres libros para tener bases sólidas de estadística en Data Science

Empecemos por una verdad incómoda. La ciencia de datos se fundamenta sobre conocimientos claves de programación, matemáticas y estadísticas. Como puedes ver en el diagrama Drew Conway.

A pesar de que sabiendo programar y por abstracción uses librerías para generar resultados. Si no logras tener un entendimiento de la matemática que está ocurriendo. Solo estás a medio camino de lograr una verdadera solución.

En este post te recomiendo tres libros sobre estadística, ordenados por nivel de dificultad que te ayudaran a entender los conceptos básicos y avanzados de distribución de datos, probabilidad, y pruebas de hipótesis.

1. Head First Statistics: A Brain-Friendly Guide – Dawn Griffiths

Vamos con el número 1, de nivel básico a medio:

Es el tipo de metodología que te hubiese gustado tener en la secundaria o incluso la universidad.

Tiene ejemplos prácticos en cada unos de los temas. Desde entender la importancia de la dispersión de datos, lo engañoso que puede resultar la información si no das tratamientos a los outliers. Probabilidad del método Laplace, condicionada y una breve introducción al teorema de Bayes.

Luego de tener las bases de esto te explica de manera sencilla pero completa el uso de la distribución de probabilidad con énfasis en la Distribución Normal. Para terminar con ejemplos de muestreo, prueba de hipotesis, y el uso aplicado de correlaciones y regresión.

Cada tema incluye la explicación de las fórmulas y posibles inconvenientes que se pueden tener al aplicar a tal cual escenario.

Y la parte que más me encanta, cada capítulo tiene un apartado denominado “No hay preguntas tontas” en el que se responde preguntas que quizás nos hicimos en algún momento, y que nos dio miedo hacer en un aula de clase.

2. Introduction to Statistics and Data Analysis With Exercises, Solutions and Applications in R -Springer

El libro número dos es de intermedio a avanzado:

Este es uno de los libros liberados durante la pandemia por Springer, por el momento es de libre acceso. Incluye ejemplos aplicados con “R”. Pero su verdadero valor está en el enfoque que tiene para análisis de datos. Luego de tener las bases en el libro número 1 vas a poder desarrollar tus propios modelos de análisis usando como plantillas los que te ofrece este libro.

En especial debes enforcarte en los apartados de variables aleatorias y distribución de probabilidad, para tener bases sólidas de la función de distribución acumulada que es como un pasito más arriba para dominar las distribuciones de probabilidad (normal, binomial, uniforme, etc.) y poder interpretar los resultados que obtienes.

Los ejemplos son muy claros, pero a diferencia del libro anterior ya debes tener bases de las formulas y su desarrollo. Es casi como un entrenamiento en análisis de datos y aplicación de las herramientas estadísticas.

Luego de leer este libro básicamente estás preparado para enfrentarte a dataframes con variables categóricas, numéricas (continuas, discretas), saber que tipo de distribución debes aplicar, y si tus modelos a desarrollar deben ser de clasificación o regresión. Tu intuición en este punto para usar tal o cual librería está en un 70%.

3. The Art of Statistics: How to learn from data- David Spiegelhalter

El libro número tres es avanzado:

Ya vienes de un camino de funciones, de probabilidad, de desarrollo de cálculo. De entender que las variables categóricas tienen una distribución especifica al igual que las variables numéricas. Ya sabes que las probabilidades se condicionan para actualizar el suceso. Entiendes que existen herramientas que te ayudan a clasificar e inferir posibles valores “futuros”.

Pero necesitas intuición sobre qué sucesos desencadenan los resultados que estás obtenido, y que condiciones son las adecuadas para tener ese porcentaje de relación que te hará decir: “carajo que bien va este algoritmo”.

Hay una frase que debes repetirte una y otra vez “la correlación no significa causalidad”. Este libro justamente te ayuda con varios casos, a entender, que no tener una visión extensiva de lo que estás estudiando te puede hacer caer en errores de interpretación garrafales y hasta que se pueden considerar tontos.           

Este compendio de estudios y aplicación de análisis en mi opinión es hermoso. Debes tener en claro que siendo casos de estudio no es un libro que puedas apreciar si no tienes lo que te han proporcionado los dos libros anteriores. Ya en la practica la combinación de la habilidad de distinguir distribuciones y su aplicación numérica se combinan con la experiencia e intuición del analista de datos o data science. Y esto se logra si eres un lector apasionado de papers, o libros especializados en el tema, o también se logra con la experiencia que vas adquiriendo con las distintas soluciones que vas generando.

Si bien los libros que te recomiendo están en inglés, leer y entender este idioma es muy importante en tu formación en datos. La mayoría de material de calidad y bien estructurado está en inglés.

Si te gustó este post, te invito a suscribirte para estar al pendiente del material que vamos compartiendo.

De qué sirve una casa sino se cuenta con un planeta tolerable donde situarla

Henry D. Thoreau
Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *