Data Analysis · Lección 05 de 19

pandas: Limpieza de Datos

En el mundo de fantasía, los datos llegan perfectos. En el mundo real, llegan sucios, incompletos, duplicados y llenos de formatos inconsistentes. La limpieza consume el 60-80% del tiempo de un Data Analyst. Si no limpiás, tu análisis es basura — "garbage in, garbage out".

90–120 min Prerrequisitos: Lección 04 (Selección y filtrado)

Concepto teórico

Los 4 jinetes del caos en datos

Casi todos los problemas de calidad de datos en tu carrera van a caer en estas cuatro categorías:

Problema	Ejemplo real	Herramienta pandas
Valores nulos (NaN)	Cliente sin email, saldo sin informar	`isna()`, `fillna()`, `dropna()`
Duplicados	Mismo cliente cargado 2 veces	`duplicated()`, `drop_duplicates()`
Tipos incorrectos	Saldo guardado como texto "150000"	`astype()`, `pd.to_numeric()`
Strings sucios	" GARCÍA " vs "garcía" vs "Garcia"	`.str.strip()`, `.str.lower()`, `.str.replace()`

Analogía del restaurant: Antes de cocinar (analizar), el chef lava y pela los vegetales (limpia los datos). Si no lo hacés, la comida sale con tierra y cáscaras. Lo mismo con los datos: si un campo "Monto" tiene el símbolo "$" como texto, pandas no puede sumar. Necesitás limpiar primero.

NaN: El fantasma de pandas

NaN (Not a Number) es la representación universal de "dato faltante" en pandas. Viene del módulo numpy. Tiene un comportamiento especial que causa bugs silenciosos si no lo conocés:

NaN == NaN da False (¡un NaN nunca es igual a sí mismo!)
Cualquier operación aritmética con NaN da NaN (5 + NaN = NaN)
Para detectar NaN usás isna() o isnull(), NUNCA == NaN

El bug silencioso más peligroso: si calculás un promedio y tu columna tiene NaN, pandas los ignora automáticamente en .mean(). Esto puede ser bueno o malo: si el 40% de tus datos son nulos, tu promedio se basa en el 60% restante y puede no ser representativo. Siempre revisá isna().sum() antes de calcular estadísticas.

Estrategias para manejar nulos

Estrategia	Método	Cuándo usarla
Eliminar filas	`df.dropna()`	Pocos nulos, perder filas es aceptable
Rellenar con valor fijo	`df.fillna(0)`	Nulo significa "cero" (ej: ventas sin registrar)
Rellenar con estadístico	`df.fillna(df.mean())`	Preservar la distribución general
Rellenar con el anterior	`df.ffill()`	Series temporales (usar último valor conocido)

En el trabajo real: la decisión de "eliminar vs rellenar" la toman juntos el analista y el área de negocios. No es una decisión técnica pura. Si un banco elimina clientes sin email, puede estar tirando el segmento de adultos mayores que no usan email pero tienen saldos altísimos. Siempre documentá tu decisión.

Ejemplos explicados paso a paso

Ejemplo 1: Detectar y contar nulos

Antes de limpiar, necesitás un diagnóstico. isna() te muestra dónde están los huecos.

ejemplo_01_detectar.pyPython

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Cliente": ["García", "López", None, "Pérez", "Sosa"],
    "Ciudad": ["CABA", None, "CABA", "Córdoba", "CABA"],
    "Saldo": [850000, 320000, np.nan, 95000, np.nan],
    "Email": ["g@mail.com", None, None, "p@mail.com", "s@mail.com"]
})

print("=== DataFrame con nulos ===")
print(df)

# Detectar nulos (True donde hay NaN)
print("\n=== Mapa de nulos ===")
print(df.isna())

# Contar nulos por columna (lo más útil)
print("\n=== Nulos por columna ===")
print(df.isna().sum())

# Porcentaje de nulos
total_filas = len(df)
print("\n=== % de nulos por columna ===")
print(round(df.isna().sum() / total_filas * 100, 1))

Hacé clic en ▶ Ejecutar

Ejemplo 2: Eliminar vs rellenar nulos

Las dos estrategias principales y cuándo usar cada una.

ejemplo_02_limpiar_nulos.pyPython

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Mes": ["Enero", "Febrero", "Marzo", "Abril", "Mayo"],
    "Ventas": [50000, np.nan, 62000, np.nan, 71000],
    "Gastos": [30000, 28000, np.nan, 35000, 32000]
})

print("=== Original ===")
print(df)

# Estrategia 1: Eliminar filas con CUALQUIER nulo
limpio_drop = df.dropna()
print(f"\n=== dropna() → quedan {len(limpio_drop)} filas ===")
print(limpio_drop)

# Estrategia 2: Rellenar con 0
limpio_cero = df.fillna(0)
print("\n=== fillna(0) ===")
print(limpio_cero)

# Estrategia 3: Rellenar con el promedio de cada columna
limpio_media = df.fillna(df.mean(numeric_only=True))
print("\n=== fillna(media) ===")
print(limpio_media)
print(f"\nMedia Ventas usada: {df['Ventas'].mean():,.0f}")
print(f"Media Gastos usada: {df['Gastos'].mean():,.0f}")

Hacé clic en ▶ Ejecutar

Ejemplo 3: Eliminar duplicados

Los duplicados engañan tus métricas. Si un cliente aparece 3 veces, tu conteo de clientes está inflado un 200%. Detectálos y eliminá los sobrantes.

ejemplo_03_duplicados.pyPython

import pandas as pd

df = pd.DataFrame({
    "DNI": [30555111, 28444222, 30555111, 35666333, 28444222],
    "Nombre": ["García", "López", "García", "Pérez", "López"],
    "Saldo": [850000, 320000, 850000, 95000, 320000]
})

print("=== Original (con duplicados) ===")
print(df)

# Detectar duplicados
print("\n=== ¿Está duplicado? ===")
print(df.duplicated())
print(f"\nTotal duplicados: {df.duplicated().sum()}")

# Eliminar duplicados (se queda con la primera aparición)
df_unico = df.drop_duplicates()
print(f"\n=== Sin duplicados ({len(df_unico)} filas) ===")
print(df_unico)

# Eliminar duplicados basándose solo en una columna
df_unico_dni = df.drop_duplicates(subset="DNI", keep="last")
print("\n=== Únicos por DNI (keep=last) ===")
print(df_unico_dni)

Hacé clic en ▶ Ejecutar

Ejemplo 4: Corregir tipos de datos

Un clásico: el campo "Saldo" vino como texto porque el CSV lo exportaron mal. Si no convertís, sum() concatena strings en vez de sumar números.

ejemplo_04_tipos.pyPython

import pandas as pd

df = pd.DataFrame({
    "Cliente": ["García", "López", "Pérez"],
    "Saldo_Texto": ["850000", "320000", "95000"],  # ¡Son strings!
    "Activo_Texto": ["1", "0", "1"]                 # ¡También strings!
})

print("=== Tipos ANTES ===")
print(df.dtypes)
print(f"\nSuma de 'Saldo_Texto': {df['Saldo_Texto'].sum()}")  # Concatena!

# Convertir tipos
df["Saldo"] = df["Saldo_Texto"].astype(int)
df["Activo"] = df["Activo_Texto"].astype(bool)

print("\n=== Tipos DESPUÉS ===")
print(df.dtypes)
print(f"\nSuma de 'Saldo' (numérico): {df['Saldo'].sum():,}")  # Ahora sí suma

Hacé clic en ▶ Ejecutar

Tip profesional: siempre revisá df.dtypes inmediatamente después de importar un CSV. Si una columna numérica dice object, significa que pandas la interpretó como texto. Significa que hay algún caracter extraño en alguna fila que impidió la conversión automática.

Ejemplo 5: Limpiar strings sucios

Los nombres de ciudades escritos de 10 formas distintas son el dolor de cabeza de todo analista. El accessor .str de pandas permite operaciones de limpieza vectorizadas sobre columnas de texto.

ejemplo_05_strings.pyPython

import pandas as pd

df = pd.DataFrame({
    "Ciudad_Sucia": ["  CABA  ", "caba", "Buenos Aires", "Bs As", "  rosario", "ROSARIO  "],
    "Monto_Sucio": ["$1,500.00", "$820.50", "$3,200.00", "$950.00", "$2,100.00", "$4,800.00"]
})

print("=== Original SUCIO ===")
print(df)

# Limpiar ciudades: strip espacios, convertir a mayúsculas
df["Ciudad_Limpia"] = df["Ciudad_Sucia"].str.strip().str.upper()

# Reemplazar variantes
df["Ciudad_Limpia"] = df["Ciudad_Limpia"].replace({
    "BUENOS AIRES": "CABA",
    "BS AS": "CABA"
})

# Limpiar montos: sacar $ y comas, convertir a float
df["Monto"] = (df["Monto_Sucio"]
    .str.replace("$", "", regex=False)
    .str.replace(",", "", regex=False)
    .astype(float))

print("\n=== LIMPIO ===")
print(df[["Ciudad_Limpia", "Monto"]])
print(f"\nConteo por ciudad: ")
print(df["Ciudad_Limpia"].value_counts())

Hacé clic en ▶ Ejecutar

Referencia rápida

Método	Qué hace	Modifica el original?
`df.isna()`	Máscara True donde hay NaN	No (devuelve nuevo)
`df.isna().sum()`	Cuenta nulos por columna	No
`df.dropna()`	Elimina filas con nulos	No (devuelve nuevo)
`df.fillna(valor)`	Reemplaza NaN con valor	No (devuelve nuevo)
`df.duplicated()`	Máscara True en duplicados	No
`df.drop_duplicates()`	Elimina filas repetidas	No (devuelve nuevo)
`df["col"].astype(tipo)`	Convierte tipo de dato	No (devuelve nuevo)
`df["col"].str.strip()`	Elimina espacios extremos	No (devuelve nuevo)
`df["col"].str.upper()`	Todo a mayúsculas	No (devuelve nuevo)
`df["col"].str.replace()`	Reemplaza texto	No (devuelve nuevo)

Ejercicios

Nivel 1 · Básico

Ejercicio 1: Contar nulos

El dataset tiene valores faltantes. Usá .isna().sum() para contar cuántos nulos hay por columna. El output debe incluir el número 2 (la columna Email tiene 2 nulos).

ejercicio_01.pyDebe incluir "2"

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Nombre": ["Ana", "Luis", "Pedro", "María"],
    "Email": ["ana@mail.com", None, None, "m@mail.com"],
    "Saldo": [500, 300, np.nan, 800]
})

# Contá nulos por columna

Hacé clic en ▶ Ejecutar

Nivel 1 · Básico

Ejercicio 2: Eliminar filas con nulos

Usá .dropna() para quedarte solo con filas completas. Imprimí cuántas filas quedan usando len(). Deben quedar 2.

ejercicio_02.pyDebe incluir "2"

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Nombre": ["Ana", "Luis", "Pedro", "María"],
    "Email": ["ana@mail.com", None, None, "m@mail.com"],
    "Saldo": [500, 300, np.nan, 800]
})

# Eliminá filas con nulos e imprimí cuántas quedan

Hacé clic en ▶ Ejecutar

Nivel 1 · Básico

Ejercicio 3: Rellenar nulos con cero

La columna Saldo tiene un NaN. Rellenalo con 0 usando fillna() e imprimí la suma total de saldos. Debe dar 1600.

ejercicio_03.pyDebe incluir "1600"

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Nombre": ["Ana", "Luis", "Pedro", "María"],
    "Saldo": [500, 300, np.nan, 800]
})

# Rellená los nulos de Saldo con 0 y sumá

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 4: Detectar y contar duplicados

El dataset tiene clientes repetidos. Usá .duplicated().sum() para contar cuántos duplicados hay. Debe dar 2.

ejercicio_04.pyDebe incluir "2"

import pandas as pd

df = pd.DataFrame({
    "DNI": [30111, 28222, 30111, 35333, 28222],
    "Nombre": ["García", "López", "García", "Pérez", "López"],
    "Saldo": [850, 320, 850, 95, 320]
})

# Contá duplicados

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 5: Eliminar duplicados por columna clave

Eliminá duplicados basándote en la columna "DNI", quedándote con la primera aparición. Imprimí cuántas filas únicas quedan. Deben ser 3.

ejercicio_05.pyDebe incluir "3"

import pandas as pd

df = pd.DataFrame({
    "DNI": [30111, 28222, 30111, 35333, 28222],
    "Nombre": ["García", "López", "García", "Pérez", "López"],
    "Saldo": [850, 320, 850, 95, 320]
})

# Eliminá duplicados por DNI e imprimí cantidad de filas

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 6: Convertir tipo de dato

La columna "Monto" es un string. Convertila a int con astype() e imprimí la suma. Debe dar 2850.

ejercicio_06.pyDebe incluir "2850"

import pandas as pd

df = pd.DataFrame({
    "Producto": ["A", "B", "C"],
    "Monto": ["1200", "850", "800"]  # Son strings
})

print("Tipo antes:", df["Monto"].dtype)

# Convertí a int y sumá

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 7: Limpiar strings con strip y upper

Las ciudades se cargaron con inconsistencias de mayúsculas y espacios. Limpiá la columna usando .str.strip().str.upper(). Luego contá cuántos son "CABA". Debe dar 3.

ejercicio_07.pyDebe incluir "3"

import pandas as pd

df = pd.DataFrame({
    "Ciudad": ["  caba", "CABA  ", "Rosario", "  Caba ", "Mendoza"]
})

# Limpiá y contá cuántos son CABA

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 8: Limpiar montos con símbolos

Los montos tienen $ y ,. Limpiálos y convertílos a float, luego imprimí el total. Debe dar 6470.5.

ejercicio_08.pyDebe incluir "6470.5"

import pandas as pd

df = pd.DataFrame({
    "Item": ["Notebook", "Mouse", "Monitor"],
    "Precio": ["$3,200.50", "$270.00", "$3,000.00"]
})

# Limpiá $ y comas, convertí a float, sumá

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 9: Pipeline de limpieza completo

El dataset tiene nulos en Saldo y duplicados por DNI. Primero rellenálos con la media, después eliminá duplicados. Imprimí la suma final de saldos. Debe incluir 1520000.

ejercicio_09.pyDebe incluir "1520000"

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "DNI": [30111, 28222, 30111, 35333],
    "Nombre": ["García", "López", "García", "Pérez"],
    "Saldo": [850000, np.nan, 850000, 670000]
})

# 1. Rellená nulos de Saldo con la media
# 2. Eliminá duplicados por DNI
# 3. Imprimí la suma de Saldo

Hacé clic en ▶ Ejecutar

Nivel 4 · Desafío

Ejercicio 10: Diagnóstico de salud de datos

Escribí un mini reporte que imprima: (1) Total de filas, (2) Nulos por columna, (3) Duplicados, (4) Tipos de dato. Debe incluir la palabra object (tipo de las columnas de texto).

ejercicio_10_desafio.pyDebe incluir "object"

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "DNI": [30111, 28222, 30111, 35333, 28222],
    "Nombre": ["García", "López", "García", "Pérez", "López"],
    "Saldo": [850000, np.nan, 850000, 95000, np.nan]
})

# Imprimí un reporte completo de diagnóstico

Hacé clic en ▶ Ejecutar

Resumen y conexión

Siempre empezá revisando df.isna().sum() y df.duplicated().sum().
dropna() elimina filas con nulos; fillna() los reemplaza.
drop_duplicates(subset="col") limpia registros repetidos por clave.
astype() corrige tipos. Si la columna dice object pero debería ser número, convertíla.
El accessor .str te da strip(), upper(), replace() para limpiar texto.
Documentá siempre qué limpiaste y por qué — es parte del proceso profesional.

En la siguiente lección (06 · pandas: transformaciones) vas a aprender a crear nuevas columnas, aplicar funciones, mapear valores y realizar los cálculos que convierten datos crudos en métricas de negocio.

Recursos: pandas docs — Working with missing data

Hecho con ❤️ por Rodri Gonzalez