Data Analysis · Lección 09 de 19

Estadística Descriptiva

La estadística descriptiva es el lenguaje universal del análisis de datos. Cuando decís "el ingreso mediano es $350K con una desviación de $120K", cualquier analista del mundo entiende exactamente qué significa. Sin estadística, estás mirando números sin contexto. Con ella, estás contando la historia detrás de los datos.

90–120 min Prerrequisitos: Lección 08 (merge/join/concat)

Concepto teórico

Las 3 preguntas fundamentales

Toda estadística descriptiva responde una de estas tres preguntas:

¿Cuál es el centro de los datos? → Medidas de tendencia central (media, mediana, moda)
¿Qué tan dispersos están? → Medidas de dispersión (rango, varianza, desviación estándar)
¿Cómo se distribuyen? → Forma de la distribución (asimetría, percentiles, outliers)

Medidas de tendencia central

Medida	Calcula	pandas	Cuándo usarla
Media (promedio)	Suma / cantidad	`.mean()`	Datos simétricos sin outliers
Mediana	Valor del medio al ordenar	`.median()`	Datos con outliers o asimétricos
Moda	Valor más frecuente	`.mode()`	Datos categóricos

¿Cuándo la media miente? Si en una sala hay 9 personas ganando $100K y 1 persona ganando $10M, la media es $1.09M — un número que no representa a nadie. La mediana es $100K, que describe al 90% del grupo. Por eso, para ingresos, precios de propiedades y salarios, siempre se usa la mediana.

Analogía: Jeff Bezos entra a un bar. La media de ingresos de los presentes sube a $1 mil millones. La mediana apenas se mueve. La media es sensible a valores extremos; la mediana es robusta.

Medidas de dispersión

El centro no cuenta toda la historia. Dos ciudades pueden tener el mismo ingreso promedio ($400K), pero en una todos ganan entre $350K-$450K y en otra van desde $50K hasta $2M. La dispersión mide esa "anchura".

Medida	Calcula	pandas	Interpretación
Rango	max − min	`.max() - .min()`	Amplitud total (afectado por outliers)
Varianza	Promedio de distancias² al centro	`.var()`	Dispersión en unidades² (difícil de interpretar)
Desv. estándar (σ)	√varianza	`.std()`	Dispersión en las mismas unidades que los datos
IQR	Q3 − Q1 (rango intercuartílico)	`.quantile(.75) - .quantile(.25)`	Dispersión del 50% central (robusto a outliers)

La desviación estándar es la reina de la dispersión. Si te dicen "el ingreso promedio es $400K con σ = $20K", sabés que los datos están muy concentrados. Si σ = $200K, están muy dispersos. Un σ grande sugiere alta variabilidad — puede indicar segmentos diferentes mezclados, errores de carga, o simplemente una población heterogénea.

Percentiles y la regla del box plot

Los percentiles (o cuantiles) dividen tus datos ordenados en porciones iguales:

Q1 (25%): el valor por debajo del cual está el 25% de los datos
Q2 (50%) = Mediana: el punto medio
Q3 (75%): por debajo del cual está el 75%
IQR = Q3 - Q1: el rango donde vive el 50% central de los datos

La regla clásica para detectar outliers usa el IQR:

Outlier por abajo: valor < Q1 − 1.5 × IQR
Outlier por arriba: valor > Q3 + 1.5 × IQR

El superpoder: .describe()

El método df.describe() genera un resumen estadístico completo en una sola línea. Te da: count, mean, std, min, 25%, 50%, 75% y max. Es lo primero que ejecutás cuando recibís un dataset nuevo.

En el trabajo real: cuando un líder te da un dataset nuevo y te dice "fijate qué hay acá", lo primero que hacés es: df.shape (tamaño), df.dtypes (tipos), df.isna().sum() (nulos), df.describe() (estadísticas). Con esas 4 líneas ya sabés el 80% de lo que necesitás saber.

Ejemplos explicados paso a paso

Ejemplo 1: Medidas de tendencia central

Comparar media vs mediana en un dataset con y sin outliers para entender cuándo usar cada una.

ejemplo_01_central.pyPython

import pandas as pd

# Ingresos de un equipo (sin outliers)
equipo_a = pd.Series([350000, 380000, 400000, 420000, 450000],
                     name="Equipo_A")

# Ingresos con un director (outlier)
equipo_b = pd.Series([350000, 380000, 400000, 420000, 3500000],
                     name="Equipo_B")

print("=== Equipo A (sin outliers) ===")
print(f"  Media:   ${equipo_a.mean():,.0f}")
print(f"  Mediana: ${equipo_a.median():,.0f}")
print(f"  Diferencia: ${abs(equipo_a.mean() - equipo_a.median()):,.0f}")

print("\n=== Equipo B (con outlier: director gana $3.5M) ===")
print(f"  Media:   ${equipo_b.mean():,.0f}")
print(f"  Mediana: ${equipo_b.median():,.0f}")
print(f"  Diferencia: ${abs(equipo_b.mean() - equipo_b.median()):,.0f}")

print("\nLa media del Equipo B es $1.01M → no representa a nadie")
print("La mediana es $400K → describe al 80% del equipo")

Hacé clic en ▶ Ejecutar

Ejemplo 2: Medidas de dispersión

Dos ciudades con el mismo ingreso promedio pero dispersión completamente distinta.

ejemplo_02_dispersion.pyPython

import pandas as pd

# Ciudad A: ingresos concentrados (poca dispersión)
ciudad_a = pd.Series([380000, 390000, 400000, 410000, 420000], name="Ciudad_A")

# Ciudad B: ingresos dispersos (mucha variabilidad)
ciudad_b = pd.Series([100000, 200000, 400000, 600000, 700000], name="Ciudad_B")

for ciudad, datos in [("Ciudad A", ciudad_a), ("Ciudad B", ciudad_b)]:
    print(f"=== {ciudad} ===")
    print(f"  Media:     ${datos.mean():>12,.0f}")
    print(f"  Mediana:   ${datos.median():>12,.0f}")
    print(f"  Desv std:  ${datos.std():>12,.0f}")
    print(f"  Rango:     ${datos.max() - datos.min():>12,.0f}")
    print(f"  Mínimo:    ${datos.min():>12,.0f}")
    print(f"  Máximo:    ${datos.max():>12,.0f}")
    print()

print("Ambas tienen media $400K, pero Ciudad B tiene σ = $245K")
print("contra σ = $15K de Ciudad A. Son realidades MUY distintas.")

Hacé clic en ▶ Ejecutar

Ejemplo 3: .describe() — El resumen automático

Una sola línea que te da el panorama completo. Es lo primero que ejecutás cuando recibís un dataset nuevo.

ejemplo_03_describe.pyPython

import pandas as pd

df = pd.DataFrame({
    "Cliente": ["García", "López", "Pérez", "Sosa", "Luna",
                "Díaz", "Ruiz", "Vega", "Mora", "Castro"],
    "Saldo": [850000, 320000, 95000, 670000, 1200000,
              180000, 450000, 3500000, 280000, 520000],
    "Antiguedad_Anios": [12, 3, 1, 8, 15, 2, 6, 20, 4, 9],
    "Productos": [5, 2, 1, 4, 6, 1, 3, 8, 2, 4]
})

# describe() para columnas numéricas
print("=== Resumen estadístico ===")
print(df.describe().round(0))

# describe() con percentiles personalizados
print("\n=== Con percentiles 10%, 90% ===")
print(df["Saldo"].describe(percentiles=[.10, .25, .50, .75, .90]).round(0))

# Interpretación
print("\n=== Interpretación ===")
mediana = df["Saldo"].median()
media = df["Saldo"].mean()
print(f"Media: ${media:,.0f} | Mediana: ${mediana:,.0f}")
print(f"Media > Mediana → distribución con cola a la derecha (outliers altos)")
print(f"El 50% de los clientes tiene saldo < ${mediana:,.0f}")

Hacé clic en ▶ Ejecutar

Ejemplo 4: Percentiles y detección de outliers

Usando la regla del IQR para detectar automáticamente valores atípicos que podrían distorsionar tu análisis.

ejemplo_04_outliers.pyPython

import pandas as pd

saldos = pd.Series([
    120000, 180000, 250000, 300000, 350000,
    380000, 420000, 500000, 650000, 5000000  # ← outlier
], name="Saldo")

# Calcular cuartiles e IQR
Q1 = saldos.quantile(0.25)
Q3 = saldos.quantile(0.75)
IQR = Q3 - Q1

# Límites para outliers
limite_inf = Q1 - 1.5 * IQR
limite_sup = Q3 + 1.5 * IQR

print(f"Q1 (25%): ${Q1:,.0f}")
print(f"Q3 (75%): ${Q3:,.0f}")
print(f"IQR:      ${IQR:,.0f}")
print(f"\nLímite inferior: ${limite_inf:,.0f}")
print(f"Límite superior: ${limite_sup:,.0f}")

# Detectar outliers
outliers = saldos[(saldos < limite_inf) | (saldos > limite_sup)]
print(f"\nOutliers detectados: {len(outliers)}")
print(outliers.values)

# Estadísticas con y sin outliers
print(f"\nMedia CON outlier:  ${saldos.mean():,.0f}")
print(f"Media SIN outlier:  ${saldos[saldos <= limite_sup].mean():,.0f}")
print(f"Mediana (no cambia): ${saldos.median():,.0f}")

Hacé clic en ▶ Ejecutar

Tip profesional: un outlier no siempre es un error. El cliente con $5M de saldo puede ser legítimo (un cliente VIP). La pregunta no es "¿elimino el outlier?" sino "¿este outlier distorsiona la métrica que estoy calculando?". Si estás calculando el saldo promedio de clientes estándar, sí lo sacás. Si estás calculando el total de depósitos, no.

Ejemplo 5: Estadísticas por grupo (groupby + describe)

El patrón más poderoso: calcular estadísticas descriptivas segmentadas por categoría. Ya no es "el promedio global" sino "el promedio de cada segmento".

ejemplo_05_por_grupo.pyPython

import pandas as pd

df = pd.DataFrame({
    "Segmento": ["Premium"]*4 + ["Estándar"]*4 + ["Básico"]*4,
    "Saldo": [850000, 1200000, 670000, 920000,
              320000, 280000, 450000, 380000,
              95000, 120000, 80000, 150000],
    "Productos": [5, 6, 4, 5, 2, 3, 3, 2, 1, 1, 1, 2]
})

# Estadísticas por segmento
print("=== Reporte por segmento ===")
reporte = df.groupby("Segmento").agg(
    Clientes      = ("Saldo", "count"),
    Saldo_Media   = ("Saldo", "mean"),
    Saldo_Mediana = ("Saldo", "median"),
    Saldo_Std     = ("Saldo", "std"),
    Saldo_Min     = ("Saldo", "min"),
    Saldo_Max     = ("Saldo", "max"),
    Prod_Promedio = ("Productos", "mean")
).round(0)

print(reporte)

# ¿Cuál es el segmento más homogéneo?
print(f"\nSegmento más homogéneo (menor σ): {reporte['Saldo_Std'].idxmin()}")
print(f"Segmento más heterogéneo (mayor σ): {reporte['Saldo_Std'].idxmax()}")

Hacé clic en ▶ Ejecutar

Referencia rápida

Método pandas	Estadístico	Tipo
`.mean()`	Media aritmética	Tendencia central
`.median()`	Mediana (P50)	Tendencia central
`.mode()`	Moda	Tendencia central
`.std()`	Desviación estándar	Dispersión
`.var()`	Varianza	Dispersión
`.min()` / `.max()`	Mínimo / máximo	Rango
`.quantile(p)`	Percentil p	Posición
`.describe()`	Resumen completo	Todo junto
`.value_counts()`	Frecuencia de valores	Distribución categórica
`.corr()`	Correlación entre columnas	Relación
`.skew()`	Asimetría	Forma

Ejercicios

Nivel 1 · Básico

Ejercicio 1: Media y mediana

Calculá la media y la mediana de la columna "Saldo". Imprimí la mediana. Debe incluir 400000.

ejercicio_01.pyDebe incluir "400000"

import pandas as pd

df = pd.DataFrame({
    "Cliente": ["A", "B", "C", "D", "E"],
    "Saldo": [200000, 350000, 400000, 500000, 800000]
})

# Calculá media y mediana del Saldo

Hacé clic en ▶ Ejecutar

Nivel 1 · Básico

Ejercicio 2: Desviación estándar

Calculá la desviación estándar del saldo redondeada a entero. Debe incluir 212132.

ejercicio_02.pyDebe incluir "212132"

import pandas as pd

df = pd.DataFrame({
    "Cliente": ["A", "B", "C", "D", "E"],
    "Saldo": [200000, 350000, 400000, 500000, 800000]
})

# Calculá la desviación estándar (redondeada)

Hacé clic en ▶ Ejecutar

Nivel 1 · Básico

Ejercicio 3: .describe() completo

Ejecutá .describe() sobre el DataFrame. El output debe incluir la palabra mean (nombre de la fila de la media).

ejercicio_03.pyDebe incluir "mean"

import pandas as pd

df = pd.DataFrame({
    "Edad": [25, 32, 45, 28, 55, 38, 42],
    "Ingreso": [180000, 320000, 550000, 250000, 800000, 400000, 480000]
})

# Imprimí el describe

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 4: Calcular cuantiles

Calculá Q1 (25%), mediana (50%) y Q3 (75%) de la columna "Ingreso". Imprimí Q3. Debe incluir 480000.

ejercicio_04.pyDebe incluir "480000"

import pandas as pd

df = pd.DataFrame({
    "Empleado": ["A", "B", "C", "D", "E", "F", "G"],
    "Ingreso": [180000, 250000, 320000, 400000, 480000, 550000, 800000]
})

# Calculá Q1, mediana, Q3

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 5: Detectar outliers con IQR

Usá la regla IQR para encontrar outliers. Imprimí cuántos hay. Debe dar 1.

ejercicio_05.pyDebe incluir "1"

import pandas as pd

saldos = pd.Series([100, 200, 250, 300, 350, 400, 450, 500, 2000])

# Calculá Q1, Q3, IQR, límites, contá outliers

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 6: value_counts para distribución categórica

Usá .value_counts() para contar cuántos clientes hay por Segmento. Imprimí el resultado. Debe incluir Estándar.

ejercicio_06.pyDebe incluir "Estándar"

import pandas as pd

df = pd.DataFrame({
    "Cliente": ["A","B","C","D","E","F","G","H"],
    "Segmento": ["Premium","Estándar","Básico","Premium",
                 "Estándar","Estándar","Básico","Premium"]
})

# value_counts del segmento

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 7: Media vs mediana — detectar asimetría

Calculá media y mediana de los salarios. Si media > mediana, imprimí "Asimetría positiva". Debe incluir positiva.

ejercicio_07.pyDebe incluir "positiva"

import pandas as pd

salarios = pd.Series([150000, 200000, 250000, 300000, 350000,
                      400000, 500000, 1500000])

# Calculá media, mediana, e interpretá la asimetría

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 8: Estadísticas por grupo

Calculá media y desv. estándar de Saldo por Segmento usando .agg(). Imprimí el reporte. Debe incluir Premium.

ejercicio_08.pyDebe incluir "Premium"

import pandas as pd

df = pd.DataFrame({
    "Segmento": ["Premium","Premium","Estándar","Estándar","Básico","Básico"],
    "Saldo": [850000, 920000, 320000, 380000, 95000, 120000]
})

# agg con media y std por segmento

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 9: Correlación entre variables

Calculá la correlación entre Antigüedad e Ingreso usando .corr(). Imprimilo redondeado a 2 decimales. Debe incluir 0.98.

ejercicio_09.pyDebe incluir "0.98"

import pandas as pd

df = pd.DataFrame({
    "Antiguedad": [1, 3, 5, 8, 12, 15],
    "Ingreso": [150000, 250000, 380000, 520000, 700000, 850000]
})

# Calculá la correlación entre las dos columnas

Hacé clic en ▶ Ejecutar

Nivel 4 · Desafío

Ejercicio 10: Reporte estadístico ejecutivo

Generá un reporte completo: (1) describe() del saldo, (2) ¿Cuántos outliers hay?, (3) Media con y sin outliers, (4) Distribución por segmento. Debe incluir outlier.

ejercicio_10_desafio.pyDebe incluir "outlier"

import pandas as pd

df = pd.DataFrame({
    "Segmento": ["Premium","Estándar","Básico","Premium","Estándar",
                 "Básico","Premium","Estándar","Básico","Premium"],
    "Saldo": [850000, 320000, 95000, 920000, 280000,
              120000, 5000000, 380000, 150000, 670000]
})

# Reporte ejecutivo:
# 1. describe()
# 2. Detectar outliers con IQR
# 3. Media con y sin outliers
# 4. value_counts() del segmento

Hacé clic en ▶ Ejecutar

Resumen y conexión

Tendencia central: usá la media para datos simétricos y la mediana cuando hay outliers o asimetría.
Dispersión: la desviación estándar (σ) te dice qué tan "ancho" es tu dataset. Alto σ = mucha variabilidad.
.describe() es tu primera línea de defensa: te da el panorama en 1 segundo.
Outliers: la regla del IQR (< Q1 − 1.5×IQR o> Q3 + 1.5×IQR) los detecta automáticamente.
Si media > mediana → asimetría positiva (cola derecha). Si media < mediana → asimetría negativa.
.corr() mide la relación lineal entre dos variables (de -1 a +1).
Combiná estadísticas con groupby para segmentar el análisis por categoría.

En la siguiente lección (10 · Matplotlib básico) vas a aprender a convertir todos estos números en visualizaciones claras y profesionales. Porque un gráfico bien hecho comunica en 2 segundos lo que una tabla de números tarda 2 minutos.

Recursos: pandas docs — Calculate statistics

Hecho con ❤️ por Rodri Gonzalez