Data Analysis · Lección 19 de 19

Preparación para Entrevistas

Sabés Python, SQL, pandas, visualización y ML. Ahora viene la parte que define si conseguís el puesto: la entrevista. Esta lección te prepara con las preguntas reales que hacen en entrevistas de Data Analyst, ejercicios de live coding, casos de negocio y estrategias para destacarte.

90–120 min Lección final del track

El proceso de entrevista para Data Analyst

Las 4 etapas típicas

Etapa	Formato	Qué evalúan	Duración
1. Screening	Llamada con RRHH	Fit cultural, expectativas, experiencia general	15-30 min
2. Técnica	Interview con el equipo	SQL, Python, estadística, herramientas	45-60 min
3. Case Study	Ejercicio práctico	Resolver un problema de negocio con datos	60-90 min
4. Final	Con el hiring manager	Fit técnico y de equipo, presentar portfolio	30-45 min

Las 5 áreas que te van a preguntar

Área	Peso	Preguntas típicas
SQL	30%	JOINs, GROUP BY, subqueries, window functions
Python/pandas	25%	Limpieza, transformaciones, groupby, merge
Estadística	20%	Media vs mediana, correlación, distribuciones, probabilidad
Negocio/Caso	15%	"¿Cómo medirías el éxito de X?", "Bajaron las ventas, ¿qué harías?"
Herramientas/Soft skills	10%	Excel, Power BI, comunicación, trabajo en equipo

Realidad del mercado: las empresas buscan analistas que puedan hacer 3 cosas: (1) extraer datos (SQL), (2) analizarlos (Python + estadística), y (3) comunicar hallazgos (visualización + storytelling). Si demostrás esas 3 cosas en la entrevista, tenés una ventaja enorme.

Preguntas de SQL — Live Coding

Pregunta 1: "Encontrá los clientes top y su ticket promedio"

Este tipo de pregunta aparece en el 80% de las entrevistas. Testea JOINs, GROUP BY y ORDER BY.

sql_pregunta_01.pyInterview SQL

import sqlite3
import pandas as pd
import numpy as np

np.random.seed(42)
conn = sqlite3.connect(":memory:")

# Setup
pd.DataFrame({
    "id": range(1, 21),
    "nombre": [f"Cliente_{i}" for i in range(1, 21)],
    "ciudad": np.random.choice(["CABA","Rosario","Córdoba"], 20)
}).to_sql("clientes", conn, index=False)

pd.DataFrame({
    "txn_id": range(1, 101),
    "cliente_id": np.random.randint(1, 21, 100),
    "monto": np.random.randint(500, 50000, 100),
    "fecha": pd.date_range("2024-01-01", periods=100, freq="D").strftime("%Y-%m-%d")
}).to_sql("transacciones", conn, index=False)

# === PREGUNTA: Top 5 clientes por facturación total
# con su nombre, ciudad, total facturado y ticket promedio

query = """
SELECT c.nombre, c.ciudad,
       SUM(t.monto) AS total,
       ROUND(AVG(t.monto), 0) AS ticket_prom,
       COUNT(*) AS operaciones
FROM transacciones t
JOIN clientes c ON t.cliente_id = c.id
GROUP BY c.id, c.nombre, c.ciudad
ORDER BY total DESC
LIMIT 5
"""

print("=== Top 5 clientes por facturación ===")
print(pd.read_sql(query, conn))
conn.close()

Hacé clic en ▶ Ejecutar

Pregunta 2: "Calculá la variación mensual de ventas"

Testea GROUP BY con funciones de fecha y análisis temporal — muy común en roles de BI.

sql_pregunta_02.pyInterview SQL

import sqlite3
import pandas as pd
import numpy as np

np.random.seed(42)
conn = sqlite3.connect(":memory:")

pd.DataFrame({
    "fecha": pd.date_range("2024-01-01", periods=365, freq="D").strftime("%Y-%m-%d"),
    "monto": np.random.normal(15000, 5000, 365).astype(int),
    "producto": np.random.choice(["A","B","C"], 365)
}).to_sql("ventas", conn, index=False)

# === PREGUNTA: ventas mensuales con variación %

query = """
SELECT substr(fecha, 1, 7) as mes,
       SUM(monto) as total,
       COUNT(*) as operaciones,
       ROUND(AVG(monto), 0) as ticket_prom
FROM ventas
GROUP BY mes
ORDER BY mes
"""

df = pd.read_sql(query, conn)
# La variación % se calcula más fácil en pandas
df["var_pct"] = df["total"].pct_change() * 100

print("=== Ventas mensuales con variación ===")
print(df.round(1).to_string(index=False))
conn.close()

Hacé clic en ▶ Ejecutar

Preguntas de Python/pandas

Pregunta 3: "Limpiá este dataset y extraé insights"

Te dan un dataset sucio y esperan que lo limpies, explores y saques conclusiones — todo en 20 minutos.

pandas_pregunta_03.pyInterview pandas

import pandas as pd
import numpy as np

np.random.seed(42)

# Dataset "sucio" que te darían
df = pd.DataFrame({
    "Nombre": ["Ana", "luis", " Pedro", "ana", "MARÍA", "Luis", "  pedro  ", "María"],
    "Edad": [25, 30, np.nan, 25, 28, 30, 35, 28],
    "Ingreso": [30000, 45000, 50000, 30000, np.nan, 45000, 55000, 42000],
    "Segmento": ["A", "B", "A", "A", "B", "B", "A", "B"]
})

print("=== Dataset original (sucio) ===")
print(df)

# PASO 1: Normalizar strings
df["Nombre"] = df["Nombre"].str.strip().str.title()

# PASO 2: Eliminar duplicados
print(f"\nDuplicados antes: {df.duplicated().sum()}")
df = df.drop_duplicates()
print(f"Duplicados después: {df.duplicated().sum()}")

# PASO 3: Imputar nulos
df["Edad"] = df["Edad"].fillna(df["Edad"].median())
df["Ingreso"] = df["Ingreso"].fillna(df.groupby("Segmento")["Ingreso"].transform("median"))

# PASO 4: Insights
print(f"\n=== Dataset limpio ===")
print(df)
print(f"\n=== Insights ===")
print(df.groupby("Segmento")[["Edad","Ingreso"]].mean().round(0))
print(f"\nIngreso promedio global: ${df['Ingreso'].mean():,.0f}")

Hacé clic en ▶ Ejecutar

Preguntas de estadística

Las preguntas conceptuales más frecuentes

Pregunta	Respuesta esperada
"¿Cuándo usarías la mediana en vez de la media?"	Cuando hay outliers. La media es sensible a valores extremos (ej: sueldos de una empresa con un CEO que gana 100x más). La mediana es más representativa del "valor típico".
"¿Qué es la correlación? ¿Implica causalidad?"	Correlación mide la fuerza de la relación lineal entre 2 variables (-1 a +1). No implica causalidad. Las ventas de helado y los ahogamientos correlacionan, pero la causa es el verano.
"Explicá la diferencia entre precision y recall"	Precision: ¿de los que dije positivos, cuántos son realmente positivos? Recall: ¿de los positivos reales, cuántos capturé? En fraude, querés alto recall (no perder ningún fraude). En marketing, querés alta precision (no molestar clientes equivocados).
"¿Qué es overfitting?"	Cuando un modelo memoriza los datos de entrenamiento en vez de aprender patrones generales. Se detecta cuando la accuracy en train es alta pero en test baja. Se soluciona con regularización, menos features o más datos.
"¿Qué distribucion usarías para modelar cantidad de llamadas al call center por hora?"	Poisson — modela la cantidad de eventos en un intervalo de tiempo. Es discreta, solo valores ≥ 0, y tiene un solo parámetro λ (promedio).

Pregunta práctica de estadística

stats_pregunta_04.pyInterview estadística

import numpy as np
import pandas as pd

np.random.seed(42)

# "Te doy los sueldos de una empresa. Describí la distribución."
sueldos = np.concatenate([
    np.random.normal(80000, 15000, 90),   # Empleados
    np.random.normal(200000, 30000, 8),   # Gerentes
    [800000, 1200000]                      # CEO y CFO
])

print("=== Análisis de distribución de sueldos ===")
print(f"n = {len(sueldos)}")
print(f"Media:   ${np.mean(sueldos):>12,.0f}")
print(f"Mediana: ${np.median(sueldos):>12,.0f}")
print(f"Std:     ${np.std(sueldos):>12,.0f}")
print(f"Min:     ${np.min(sueldos):>12,.0f}")
print(f"Max:     ${np.max(sueldos):>12,.0f}")
print(f"P25:     ${np.percentile(sueldos, 25):>12,.0f}")
print(f"P75:     ${np.percentile(sueldos, 75):>12,.0f}")
print(f"P90:     ${np.percentile(sueldos, 90):>12,.0f}")

print(f"\n=== Respuesta esperada ===")
print(f"La media (${np.mean(sueldos):,.0f}) es mayor que la mediana (${np.median(sueldos):,.0f})")
print("→ distribución asimétrica a la derecha (right-skewed)")
print("→ hay outliers altos (CEO/CFO) que inflan la media")
print("→ para '¿cuánto gana un empleado típico?' → usá la MEDIANA")
print(f"→ el sueldo típico es ~${np.median(sueldos):,.0f}, NO ${np.mean(sueldos):,.0f}")

Hacé clic en ▶ Ejecutar

Preguntas de caso de negocio

Caso: "Las ventas del e-commerce bajaron un 15% este mes. ¿Qué harías?"

caso_negocio.pyInterview caso

print("""
=== FRAMEWORK PARA CASOS DE NEGOCIO ===

Usá este framework ante cualquier pregunta tipo "bajaron las ventas":

1. CLARIFICAR
   - ¿15% vs mes anterior o vs mismo mes año pasado?
   - ¿Es sobre unidades vendidas o facturación?
   - ¿Es global o en algún segmento específico?

2. HIPÓTESIS (de más probable a menos)
   - Estacionalidad (¿siempre baja en este mes?)
   - Cambio en marketing/promociones
   - Problema técnico (checkout roto, página caída)
   - Cambio de precios
   - Competencia (nueva oferta)
   - Factor externo (feriados, economía)

3. DATOS QUE PEDIRÍA
   - Ventas por canal (web vs app vs tienda)
   - Ventas por producto/categoría
   - Tráfico del sitio web (¿llegó menos gente?)
   - Tasa de conversión (¿llegaron pero no compraron?)
   - Ticket promedio (¿compran menos por operación?)
   - Ventas mismos meses años anteriores

4. ANÁLISIS
   - Segmentar la caída: ¿dónde se concentra?
   - Comparar con períodos anteriores
   - Análisis de cohortes si aplica
   - Correlación con variables externas

5. RECOMENDACIÓN
   Basada en datos, no en opiniones.
   "Los datos muestran que la caída se concentra en el canal
   web, donde el tráfico bajó 20%. Recomiendo revisar las
   campañas de Google Ads de este mes."
""")

print("💡 TIP: el entrevistador no busca LA respuesta correcta.")
print("   Busca cómo PENSÁS y ESTRUCTURÁS el problema.")

Hacé clic en ▶ Ejecutar

Cómo presentar tu portfolio

presentar_portfolio.pyTips de presentación

print("""
=== CÓMO PRESENTAR TU PORTFOLIO EN 5 MINUTOS ===

ESTRUCTURA (la que usan consultoras como McKinsey):

1. EL PROBLEMA (30 seg)
   "Analicé un dataset de 500 clientes bancarios para
   identificar los factores de churn y construir un modelo
   predictivo."

2. EL ENFOQUE (30 seg)
   "Hice un EDA completo, limpié 25 nulos, identifiqué
   3 variables clave, probé 3 modelos."

3. EL HALLAZGO PRINCIPAL (1 min)
   "Los clientes con menos de 3 años y 1-2 productos tienen
   3x más probabilidad de cancelar."
   → Mostrar el gráfico clave

4. EL MODELO (1 min)
   "La regresión logística logra 78% de recall, capturando
   la mayoría de los churners."
   → Mostrar la tabla de métricas

5. LA RECOMENDACIÓN (1 min)
   "Recomiendo un programa de cross-selling temprano y
   scoring mensual automático."
   → Mostrar el valor estimado

6. CIERRE (30 seg)
   "El código está en mi GitHub, reproducible con pip install.
   Me encantaría discutir cómo este enfoque podría aplicarse
   a los datos de [nombre de la empresa]."

=== ERRORES COMUNES ===

❌ Empezar explicando el código línea por línea
❌ Mostrar 20 gráficos sin contexto
❌ No tener los datos/notebook listos para correr
❌ No conectar el análisis con el negocio
❌ Decir "hice un modelo que tiene 95% de accuracy" sin
   explicar qué significa para el negocio

✅ Empezar con el PROBLEMA y el IMPACTO
✅ Mostrar 2-3 gráficos clave, no 20
✅ Tener el notebook corriendo y listo
✅ Terminar con recomendaciones accionables
✅ Conectar con la empresa: "esto podría aplicarse a..."
""")
print("Preparación completada ✅")

Hacé clic en ▶ Ejecutar

Ejercicios de práctica de entrevista

Nivel 1 · Básico

Ejercicio 1: SQL — Total por categoría

Escribí una query que calcule el total de ventas por producto. Debe incluir total.

ejercicio_01.pyDebe incluir "total"

import sqlite3
import pandas as pd
import numpy as np
np.random.seed(42)

conn = sqlite3.connect(":memory:")
pd.DataFrame({
    "producto": np.random.choice(["A","B","C"], 50),
    "monto": np.random.randint(100, 1000, 50)
}).to_sql("ventas", conn, index=False)

# SQL: total por producto

Hacé clic en ▶ Ejecutar

Nivel 1 · Básico

Ejercicio 2: pandas — Limpieza rápida

Normalizá strings, eliminá duplicados, contá nulos. Debe incluir Limpio.

ejercicio_02.pyDebe incluir "Limpio"

import pandas as pd
import numpy as np

df = pd.DataFrame({
    "Ciudad": [" caba ", "ROSARIO", "caba", " Rosario", "CABA"],
    "Monto": [100, np.nan, 100, 200, 300]
})

# Strip+title, drop_duplicates, contar nulos

Hacé clic en ▶ Ejecutar

Nivel 1 · Básico

Ejercicio 3: Estadística — Media vs Mediana

Calculá media y mediana de los datos. Explicá cuál es más representativa. Debe incluir mediana.

ejercicio_03.pyDebe incluir "mediana"

import numpy as np

# Sueldos con outliers
sueldos = np.array([80, 85, 90, 75, 95, 82, 88, 78, 500, 1200])
# en miles de $

# Calculá media y mediana, decidí cuál es más representativa

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 4: SQL — JOIN + GROUP BY + HAVING

Encontrá los clientes con más de 3 operaciones. Debe incluir operaciones.

ejercicio_04.pyDebe incluir "operaciones"

import sqlite3
import pandas as pd
import numpy as np
np.random.seed(42)

conn = sqlite3.connect(":memory:")
pd.DataFrame({"id":[1,2,3,4,5],"nombre":["Ana","Luis","Marta","Carlos","María"]}).to_sql("clientes", conn, index=False)
pd.DataFrame({"cliente_id": np.random.choice([1,2,3,4,5], 20), "monto": np.random.randint(100,1000,20)}).to_sql("txn", conn, index=False)

# SQL: JOIN + GROUP BY + HAVING > 3

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 5: pandas — groupby + múltiples agregaciones

Calculá media, mediana y conteo por Segmento. Debe incluir median.

ejercicio_05.pyDebe incluir "median"

import pandas as pd
import numpy as np
np.random.seed(42)

df = pd.DataFrame({
    "Segmento": np.random.choice(["A","B","C"], 60),
    "Monto": np.random.normal(15000, 5000, 60).astype(int)
})

# groupby + agg(mean, median, count)

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 6: "¿Correlación implica causalidad?"

Mostrá dos variables que correlacionan pero no tienen causalidad. Imprimí la correlación y la explicación. Debe incluir No.

ejercicio_06.pyDebe incluir "No"

import numpy as np

np.random.seed(42)
# Simulación: en verano sube el helado Y los ahogamientos
temperatura = np.random.normal(25, 8, 100)  # variable oculta
helados = temperatura * 50 + np.random.normal(0, 100, 100)
ahogamientos = temperatura * 2 + np.random.normal(0, 5, 100)

# Correlación + explicación

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 7: Pipeline SQL → pandas → insight

Extraé datos con SQL, calculá participación % en pandas, y generá un insight. Debe incluir Insight.

ejercicio_07.pyDebe incluir "Insight"

import sqlite3
import pandas as pd
import numpy as np
np.random.seed(42)

conn = sqlite3.connect(":memory:")
pd.DataFrame({
    "canal": np.random.choice(["Web","App","Sucursal"], 200, p=[0.5,0.35,0.15]),
    "monto": np.random.randint(1000, 30000, 200)
}).to_sql("ventas", conn, index=False)

# SQL: agrupar por canal → pandas: % participación → insight

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 8: Modelo + interpretación para el negocio

Entrenáun modelo, mostrá las métricas y explicá qué significan para el negocio. Debe incluir Negocio.

ejercicio_08.pyDebe incluir "Negocio"

import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, recall_score

np.random.seed(42)
X = np.random.rand(200, 2)
y = (X[:,0] + X[:,1] > 1).astype(int)
X_tr,X_te,y_tr,y_te = train_test_split(X,y,test_size=0.2,random_state=42)

# Entrenar + métricas + interpretación de negocio

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 9: Análisis de caso — "bajaron las ventas"

Segmentá la caída de ventas por canal y mes. Identificá dónde está el problema. Debe incluir concentra.

ejercicio_09.pyDebe incluir "concentra"

import pandas as pd
import numpy as np
np.random.seed(42)

# Ventas de 2 meses: en Marzo la Web bajó mucho
df = pd.DataFrame({
    "Mes": (["Febrero"]*40 + ["Marzo"]*40),
    "Canal": np.tile(np.repeat(["Web","App","Sucursal"], [15,15,10]), 2),
    "Monto": np.concatenate([
        np.random.normal(20000, 5000, 15), np.random.normal(15000, 3000, 15), np.random.normal(18000, 4000, 10),
        np.random.normal(12000, 3000, 15), np.random.normal(14500, 3000, 15), np.random.normal(17500, 4000, 10)
    ]).astype(int)
})

# Segmentar la caída: ¿dónde se concentra?

Hacé clic en ▶ Ejecutar

Nivel 4 · Desafío

Ejercicio 10: Simulación de entrevista completa

Simulá una mini-entrevista: (1) limpiar datos, (2) EDA rápido con gráfico, (3) insight con recomendación. Debe incluir Recomiendo.

ejercicio_10_desafio.pyDebe imprimir "Recomiendo"

import matplotlib
matplotlib.use('Agg')
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
np.random.seed(42)

# Dataset de entrevista
df = pd.DataFrame({
    "Canal": np.random.choice([" Web","APP","sucursal "], 100),
    "Monto": np.random.normal(15000, 5000, 100).astype(int),
    "Satisfaccion": np.random.randint(1, 11, 100)
})
df.loc[np.random.choice(100, 5), "Monto"] = np.nan

# Mini entrevista: limpiar → EDA → gráfico → insight → recomendación

Hacé clic en ▶ Ejecutar

Resumen final del track completo

¡Felicitaciones! Completaste las 19 lecciones del track de Data Analysis. Esto es lo que ahora sabés hacer:

#	Habilidad	Herramienta
1-3	Fundamentos de pandas: Series, DataFrames, lectura de datos	pandas
4-6	Selección, filtrado, limpieza y transformaciones	pandas
7-8	GroupBy, Pivot Tables, Merge, Join, Concat	pandas
9	Estadística descriptiva: centralidad, dispersión, distribuciones	numpy, pandas
10-11	Visualización con Matplotlib y Seaborn	matplotlib, seaborn
12	EDA completo: proceso de 6 pasos profesional	todo combinado
13	NumPy: arrays, vectorización, broadcasting	numpy
14-15	Machine Learning: clasificación, regresión, métricas	scikit-learn
16	Business Intelligence: Power BI, Tableau, dashboards	conceptual + pandas
17	Integración SQL + Python: pipelines completos	sqlite3, pandas
18	Portfolio profesional y proyecto final	todo el stack
19	Preparación para entrevistas técnicas	todo el stack

Tenés las herramientas para aplicar a puestos de Data Analyst Junior/Semi-senior.
Tu próximo paso: construir tu portfolio con 2-3 proyectos y publicarlos en GitHub.
Practicá SQL y pandas diariamente — LeetCode SQL, Kaggle Datasets.
Mantené tu LinkedIn actualizado y compartí tus proyectos.

¡Éxitos en tu carrera como Data Analyst!

Recursos: Kaggle · LeetCode SQL · GitHub · Power BI

Hecho con ❤️ por Rodri Gonzalez