Data Analysis · Lección 07 de 19

pandas: groupby y pivot

Cuando el director comercial pregunta "¿cuánto factura cada sucursal por mes?", necesitás agrupar miles de transacciones por categoría y calcular totales. groupby es la herramienta que convierte datos transaccionales en reportes ejecutivos. Es el equivalente exacto del GROUP BY de SQL, pero con la potencia de Python.

90–120 min Prerrequisitos: Lección 06 (Transformaciones)

Concepto teórico

El patrón Split-Apply-Combine

groupby sigue un patrón de tres pasos que fue formalizado por Hadley Wickham (creador de R y ggplot2):

Split (dividir): pandas divide el DataFrame en grupos según los valores de una columna. Ejemplo: todas las filas de "CABA" en un grupo, todas las de "Rosario" en otro.
Apply (aplicar): se aplica una función de agregación (sum, mean, count, etc.) a cada grupo por separado.
Combine (combinar): los resultados de cada grupo se combinan en un nuevo DataFrame o Serie.

Analogía del profesor: tenés 100 exámenes desordenados. El paso Split es apilarlos por materia (Matemáticas, Historia, Lengua). El paso Apply es calcular el promedio de cada pila. El paso Combine es escribir en un cuadro: "Matemáticas: 7.2, Historia: 6.8, Lengua: 8.1". Eso es groupby.

# Sintaxis básica
df.groupby("columna_para_agrupar")["columna_para_calcular"].funcion()

# Ejemplo concreto
df.groupby("Sucursal")["Ventas"].sum()
# → "Agrupá por sucursal y sumá las ventas de cada una"

Funciones de agregación

Función	Qué calcula	Equivalente SQL
`.sum()`	Suma total	`SUM(col)`
`.mean()`	Promedio aritmético	`AVG(col)`
`.count()`	Cantidad de filas (no nulas)	`COUNT(col)`
`.min()` / `.max()`	Mínimo / máximo	`MIN(col)` / `MAX(col)`
`.median()`	Mediana	(no estándar en SQL)
`.std()`	Desviación estándar	`STDDEV(col)`
`.first()` / `.last()`	Primer / último valor	(no estándar)
`.nunique()`	Cantidad de valores únicos	`COUNT(DISTINCT col)`

Múltiples agregaciones con .agg()

El método más poderoso: .agg() te permite aplicar diferentes funciones a diferentes columnas en una sola operación. Es como escribir un SELECT SUM(ventas), AVG(margen), COUNT(*) FROM ... GROUP BY ... en SQL.

# .agg() con diccionario: columna → funciones
df.groupby("Sucursal").agg(
    Ventas_Total = ("Ventas", "sum"),
    Ticket_Prom  = ("Monto", "mean"),
    Operaciones  = ("ID", "count")
)

Named aggregations: la sintaxis Nombre = ("columna", "funcion") te deja ponerle nombre a cada columna resultante directamente. Es más limpio que .agg({"col": ["sum", "mean"]}) que genera MultiIndex en las columnas (difícil de manejar).

Pivot Tables: la tabla dinámica

pivot_table es como las tablas dinámicas de Excel: pone valores de una columna como filas, valores de otra como columnas, y calcula una agregación en la intersección. Es ideal para reportes matriciales.

# Pivot table
pd.pivot_table(
    df,
    values="Ventas",       # Qué calcular
    index="Sucursal",      # Filas
    columns="Mes",         # Columnas
    aggfunc="sum"           # Función de agregación
)

En el trabajo real: los reportes mensuales de gestión que reciben los directores de una empresa son, en esencia, pivot tables. "Ventas por sucursal por mes", "ticket promedio por canal por categoría de producto", "morosidad por zona por segmento". Dominar pivot_table te convierte en la persona que genera esos reportes en 5 minutos en vez de 3 horas en Excel.

Ejemplos explicados paso a paso

Ejemplo 1: groupby básico con una columna

El caso fundamental: agrupar transacciones de ventas por sucursal y calcular métricas.

ejemplo_01_groupby.pyPython

import pandas as pd

df = pd.DataFrame({
    "Sucursal": ["CABA", "Rosario", "CABA", "Córdoba", "Rosario",
                 "CABA", "Córdoba", "Rosario", "CABA", "Córdoba"],
    "Vendedor": ["Ana", "Luis", "Pedro", "María", "Ana",
                 "Luis", "Pedro", "María", "Ana", "Luis"],
    "Monto": [15000, 8500, 22000, 9500, 12000,
              18000, 7500, 11000, 25000, 13000]
})

# groupby básico: suma por sucursal
print("=== Ventas totales por sucursal ===")
print(df.groupby("Sucursal")["Monto"].sum())

# Promedio por sucursal
print("\n=== Ticket promedio por sucursal ===")
print(df.groupby("Sucursal")["Monto"].mean().round(0))

# Conteo de operaciones
print("\n=== Cantidad de operaciones por sucursal ===")
print(df.groupby("Sucursal")["Monto"].count())

# Ordenar resultado de mayor a menor
print("\n=== Ranking de sucursales (mayor venta) ===")
ranking = df.groupby("Sucursal")["Monto"].sum().sort_values(ascending=False)
print(ranking)

Hacé clic en ▶ Ejecutar

Ejemplo 2: Agrupar por múltiples columnas

Podés agrupar por dos o más columnas — por ejemplo, ver las ventas de cada vendedor en cada sucursal.

ejemplo_02_multi_group.pyPython

import pandas as pd

df = pd.DataFrame({
    "Sucursal": ["CABA", "CABA", "CABA", "Rosario", "Rosario",
                 "Rosario", "Córdoba", "Córdoba", "Córdoba"],
    "Canal": ["Web", "App", "Web", "App", "Web",
              "App", "Web", "Sucursal", "Sucursal"],
    "Monto": [15000, 22000, 18000, 8500, 12000,
              11000, 9500, 7500, 13000]
})

# Agrupar por 2 columnas
print("=== Ventas por Sucursal + Canal ===")
resultado = df.groupby(["Sucursal", "Canal"])["Monto"].sum()
print(resultado)

# reset_index() convierte el resultado en un DataFrame plano
print("\n=== Como DataFrame plano ===")
print(resultado.reset_index())

# ¿Cuántos canales distintos usa cada sucursal?
print("\n=== Canales únicos por sucursal ===")
print(df.groupby("Sucursal")["Canal"].nunique())

Hacé clic en ▶ Ejecutar

Ejemplo 3: .agg() con múltiples funciones

El reporte completo: para cada sucursal queremos la suma, el promedio, el máximo y la cantidad de operaciones, todo de una vez.

ejemplo_03_agg.pyPython

import pandas as pd

df = pd.DataFrame({
    "Sucursal": ["CABA", "CABA", "CABA", "CABA",
                 "Rosario", "Rosario", "Rosario",
                 "Córdoba", "Córdoba", "Córdoba"],
    "Monto": [15000, 22000, 18000, 25000,
              8500, 12000, 11000,
              9500, 7500, 13000],
    "Productos": [3, 5, 4, 6, 2, 3, 2, 1, 2, 3]
})

# Named aggregations (la forma más limpia)
reporte = df.groupby("Sucursal").agg(
    Venta_Total   = ("Monto", "sum"),
    Ticket_Prom   = ("Monto", "mean"),
    Venta_Max     = ("Monto", "max"),
    Operaciones   = ("Monto", "count"),
    Prod_Promedio = ("Productos", "mean")
).round(0)

print("=== Reporte Ejecutivo por Sucursal ===")
print(reporte)

# Agregar columna de participación (%)
reporte["Participacion_%"] = round(
    reporte["Venta_Total"] / reporte["Venta_Total"].sum() * 100, 1
)
print("\n=== Con participación de mercado ===")
print(reporte)

Hacé clic en ▶ Ejecutar

Tip profesional: siempre agregá una columna de participación porcentual en tus reportes. Un gerente no solo quiere saber que CABA vendió $80K — quiere saber que CABA representa el 56% del total. El contexto relativo importa más que el número absoluto.

Ejemplo 4: pivot_table — La tabla dinámica

Crear un reporte matricial donde las filas son sucursales, las columnas son canales, y las celdas son el total de ventas.

ejemplo_04_pivot.pyPython

import pandas as pd

df = pd.DataFrame({
    "Sucursal": ["CABA","CABA","CABA","Rosario","Rosario",
                 "Rosario","Córdoba","Córdoba","Córdoba"],
    "Canal": ["Web","App","Sucursal","Web","App",
              "Sucursal","Web","App","Sucursal"],
    "Monto": [45000, 32000, 18000, 22000, 15000,
              28000, 12000, 8000, 35000]
})

# Pivot table: filas=Sucursal, columnas=Canal, valores=Monto
tabla = pd.pivot_table(
    df,
    values="Monto",
    index="Sucursal",
    columns="Canal",
    aggfunc="sum",
    fill_value=0,          # NaN → 0
    margins=True,           # Agrega fila/columna de totales
    margins_name="TOTAL"
)

print("=== Tabla Dinámica: Ventas por Sucursal × Canal ===")
print(tabla)

# crosstab: alternativa rápida para conteos
print("\n=== crosstab: Cantidad de operaciones ===")
print(pd.crosstab(df["Sucursal"], df["Canal"], margins=True))

Hacé clic en ▶ Ejecutar

Ejemplo 5: Transformaciones dentro de grupos

A veces no querés resumir los datos en menos filas, sino agregar información del grupo a cada fila original. Por ejemplo: "¿cuánto representan las ventas de esta transacción sobre el total de su sucursal?"

ejemplo_05_transform.pyPython

import pandas as pd

df = pd.DataFrame({
    "Sucursal": ["CABA", "CABA", "CABA", "Rosario", "Rosario", "Córdoba"],
    "Vendedor": ["Ana", "Pedro", "Luis", "María", "Ana", "Pedro"],
    "Monto": [15000, 22000, 18000, 8500, 12000, 9500]
})

# transform: agrega el resultado del grupo a CADA fila original
df["Total_Sucursal"] = df.groupby("Sucursal")["Monto"].transform("sum")
df["Prom_Sucursal"] = df.groupby("Sucursal")["Monto"].transform("mean").round(0)

# Ahora podemos calcular el % de participación de cada vendedor
df["Participacion_%"] = round(df["Monto"] / df["Total_Sucursal"] * 100, 1)

# Y comparar con el promedio
df["vs_Promedio"] = round(df["Monto"] - df["Prom_Sucursal"], 0)

print("=== Cada fila con contexto de su grupo ===")
print(df)

print("\nPedro (CABA) vendió $22K, que es el 40% de CABA,")
print("y $3.7K por encima del promedio de esa sucursal.")

Hacé clic en ▶ Ejecutar

transform vs agg: agg() reduce muchas filas a una por grupo (como GROUP BY en SQL). transform() mantiene el mismo número de filas pero agrega la métrica del grupo a cada una (como una window function en SQL). Es la diferencia entre "dame el total de CABA" vs "dime cuánto es el total de CABA en cada fila de CABA".

Referencia rápida

Operación	Sintaxis	Resultado
Agrupar y sumar	`df.groupby("col")["val"].sum()`	Serie con totales
Múltiples columnas	`df.groupby(["c1","c2"])`	Grupos multinivel
Named agg	`.agg(Nom=("col","func"))`	DataFrame con headers limpios
Pivot table	`pd.pivot_table(df,...)`	Tabla matricial
Cross tabulation	`pd.crosstab(s1, s2)`	Tabla de frecuencias
Transform	`.groupby().transform("sum")`	Serie del mismo largo
Resetear índice	`.reset_index()`	Índice → columnas

Ejercicios

Nivel 1 · Básico

Ejercicio 1: groupby + sum

Calculá las ventas totales por Ciudad. Imprimí el resultado. Debe incluir 95000 (total de CABA).

ejercicio_01.pyDebe incluir "95000"

import pandas as pd

df = pd.DataFrame({
    "Ciudad": ["CABA", "Rosario", "CABA", "Córdoba", "Rosario", "CABA"],
    "Ventas": [30000, 18000, 25000, 12000, 22000, 40000]
})

# groupby Ciudad, suma de Ventas

Hacé clic en ▶ Ejecutar

Nivel 1 · Básico

Ejercicio 2: groupby + mean

Calculá el ticket promedio por Canal. Imprimí el promedio de "Web" redondeado. Debe incluir 25000.

ejercicio_02.pyDebe incluir "25000"

import pandas as pd

df = pd.DataFrame({
    "Canal": ["Web", "App", "Web", "Sucursal", "App", "Web"],
    "Monto": [30000, 15000, 20000, 45000, 10000, 25000]
})

# Promedio por canal

Hacé clic en ▶ Ejecutar

Nivel 1 · Básico

Ejercicio 3: groupby + count (conteo)

Contá cuántas operaciones hubo por Ciudad. Debe incluir 3 (CABA tiene 3 operaciones).

ejercicio_03.pyDebe incluir "3"

import pandas as pd

df = pd.DataFrame({
    "Ciudad": ["CABA", "Rosario", "CABA", "Córdoba", "Rosario", "CABA"],
    "Ventas": [30000, 18000, 25000, 12000, 22000, 40000]
})

# Conteo de operaciones por ciudad

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 4: Agrupar por dos columnas

Agrupá por Ciudad y Canal, sumá Monto. Imprimí el resultado. Debe incluir 55000 (CABA+Web).

ejercicio_04.pyDebe incluir "55000"

import pandas as pd

df = pd.DataFrame({
    "Ciudad": ["CABA", "CABA", "CABA", "Rosario", "Rosario", "Córdoba"],
    "Canal": ["Web", "App", "Web", "App", "Web", "Web"],
    "Monto": [30000, 20000, 25000, 15000, 18000, 12000]
})

# Agrupá por Ciudad + Canal

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 5: .agg() con named aggregations

Por cada Ciudad, calculá: venta total, ticket promedio y cantidad de operaciones usando .agg(). Debe incluir 40000 (Rosario total).

ejercicio_05.pyDebe incluir "40000"

import pandas as pd

df = pd.DataFrame({
    "Ciudad": ["CABA", "Rosario", "CABA", "Córdoba", "Rosario", "CABA"],
    "Monto": [30000, 18000, 25000, 12000, 22000, 40000]
})

# .agg() con named aggregations

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 6: pivot_table básica

Creá una pivot_table con filas = Ciudad, columnas = Canal, valores = Monto (suma). Debe incluir 55000.

ejercicio_06.pyDebe incluir "55000"

import pandas as pd

df = pd.DataFrame({
    "Ciudad": ["CABA", "CABA", "CABA", "Rosario", "Rosario", "Córdoba"],
    "Canal": ["Web", "App", "Web", "App", "Web", "Web"],
    "Monto": [30000, 20000, 25000, 15000, 18000, 12000]
})

# pivot_table

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 7: Ranking con sort_values

Agrupá por Vendedor, sumá Monto, ordenálo de mayor a menor e imprimí el nombre del vendedor #1 usando .index[0]. Debe incluir Ana.

ejercicio_07.pyDebe incluir "Ana"

import pandas as pd

df = pd.DataFrame({
    "Vendedor": ["Ana", "Luis", "Pedro", "Ana", "Luis", "Ana"],
    "Monto": [15000, 8000, 12000, 20000, 9000, 25000]
})

# Ranking de vendedores

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 8: transform para participación

Usá .transform("sum") para calcular qué porcentaje del total de su ciudad representó cada venta. Imprimí la columna de participación. Debe incluir 31.6.

ejercicio_08.pyDebe incluir "31.6"

import pandas as pd

df = pd.DataFrame({
    "Ciudad": ["CABA", "CABA", "CABA", "Rosario", "Rosario"],
    "Vendedor": ["Ana", "Pedro", "Luis", "María", "Ana"],
    "Monto": [15000, 22000, 18000, 8500, 12000]
})

# Calculá % de participación dentro de cada ciudad

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 9: pivot_table con margins

Creá una pivot_table con margins=True de ventas por Sucursal × Mes. Debe incluir la palabra All (la fila/columna de totales).

ejercicio_09.pyDebe incluir "All"

import pandas as pd

df = pd.DataFrame({
    "Sucursal": ["CABA","CABA","Rosario","Rosario","CABA","Rosario"],
    "Mes": ["Enero","Febrero","Enero","Febrero","Enero","Enero"],
    "Ventas": [50000, 45000, 30000, 28000, 55000, 32000]
})

# pivot_table con margins

Hacé clic en ▶ Ejecutar

Nivel 4 · Desafío

Ejercicio 10: Reporte ejecutivo completo

Generá un reporte con: (1) Ventas totales por sucursal (con .agg), (2) Sucursal con más ventas, (3) Participación % de cada sucursal. El output debe incluir CABA (la sucursal líder).

ejercicio_10_desafio.pyDebe incluir "CABA"

import pandas as pd

df = pd.DataFrame({
    "Sucursal": ["CABA", "CABA", "Rosario", "Rosario", "Córdoba",
                 "CABA", "Córdoba", "Rosario", "CABA"],
    "Canal": ["Web", "App", "Web", "App", "Web",
              "Sucursal", "App", "Web", "Web"],
    "Monto": [30000, 22000, 18000, 15000, 12000,
              25000, 8000, 20000, 35000]
})

# Reporte ejecutivo completo

Hacé clic en ▶ Ejecutar

Resumen y conexión

groupby sigue el patrón Split-Apply-Combine: dividir, calcular, reunir.
Podés agrupar por 1 o más columnas: df.groupby(["col1", "col2"]).
.agg() con named aggregations es la forma más profesional de generar reportes.
pivot_table genera reportes matriciales (filas × columnas), ideal para ejecutivos.
transform() mantiene las filas originales y les agrega la métrica del grupo — perfecto para participaciones y comparaciones.
Siempre incluí participación porcentual (%) en tus reportes para dar contexto relativo.

En la siguiente lección (08 · pandas: merge/join/concat) vas a aprender a combinar tablas de distintas fuentes — como cruzar la tabla de transacciones con la tabla de clientes, un patrón que vas a usar todos los días.

Recursos: pandas docs — GroupBy · pandas docs — Reshaping (pivot)

Hecho con ❤️ por Rodri Gonzalez