Regresión y Clasificación
En la lección anterior vimos el panorama general de Machine Learning. Ahora vamos a profundizar en los 4 algoritmos más usados en la industria: regresión lineal, regresión logística, árboles de decisión y K-Nearest Neighbors. Para cada uno vas a entender cómo funciona, cuándo usarlo, y cómo interpretar sus resultados.
Concepto teórico
Los 4 algoritmos esenciales
| Algoritmo | Tipo | Target | Idea central | Ejemplo de uso |
|---|---|---|---|---|
| Regresión Lineal | Regresión | Número continuo | Encontrar la recta que mejor ajusta los datos | Predecir precio de inmueble |
| Regresión Logística | Clasificación | Categoría binaria (0/1) | Calcular probabilidad de pertenecer a una clase | Predecir si un cliente cancela |
| Árbol de Decisión | Ambos | Número o categoría | Crear reglas tipo "si X > 5 → clase A" | Aprobar créditos |
| K-Nearest Neighbors | Ambos | Número o categoría | Clasificar según los K vecinos más cercanos | Recomendar productos |
Regresión Lineal: la recta que predice
La regresión lineal busca la línea recta y = mx + b que minimiza la distancia entre la línea y los
puntos reales. Es el modelo más simple pero tremendamente útil.
- m (coeficiente/pendiente): cuánto cambia y por cada unidad de x. Ej: "por cada año de antigüedad, el ingreso sube $35K".
- b (intercepto): el valor base cuando x = 0.
- R² (coeficiente de determinación): va de 0 a 1. Indica qué porcentaje de la variabilidad de y es explicado por x. R² = 0.85 → el modelo explica el 85% de la variación.
Métricas de regresión
| Métrica | Fórmula intuitiva | Interpretación |
|---|---|---|
| MAE | Promedio de |error| | "Me equivoco en promedio $X" |
| MSE | Promedio de error² | Penaliza más los errores grandes |
| RMSE | √MSE | Error en las mismas unidades que y |
| R² | 1 − (error modelo / error base) | % de variabilidad explicada (0 a 1) |
Regresión Logística: probabilidad de evento
A pesar de su nombre, la regresión logística es un modelo de clasificación. Calcula la probabilidad de que un evento ocurra (ej: P(cancela) = 0.78) y clasifica según un umbral (si P > 0.5 → "cancela").
Árboles de Decisión: reglas interpretables
Los árboles crean reglas binarias anidadas: "si antigüedad < 3 → sí cancela, sino, si productos ≥ 4 → no cancela…". Su gran ventaja: son completamente interpretables. Podés explicar cada decisión del modelo.
max_depth
alto) memoriza los datos de entrenamiento (overfitting). La regla: empezá con max_depth=3 y subí
gradualmente mientras el test accuracy mejore.KNN: "dime con quién andás…"
K-Nearest Neighbors no "aprende" nada. Cuando llega un dato nuevo, busca los K más similares en el entrenamiento y vota: si 3 de 5 vecinos cancelaron → "cancela". Es simple pero sorprendentemente efectivo.
Ejemplos explicados paso a paso
Ejemplo 1: Regresión Lineal — Predecir ingresos
Predecir el ingreso de un empleado a partir de sus años de antigüedad. Modelo simple, interpretable y poderoso.
Hacé clic en ▶ Ejecutar
Ejemplo 2: Regresión Logística — Predecir churn
Predecir si un cliente va a cancelar (sí/no). La logística nos da la probabilidad, lo que permite priorizar acciones de retención.
Hacé clic en ▶ Ejecutar
modelo.predict_proba() te da la
probabilidad de cada clase, no solo la clasificación binaria. Esto es valiosísimo porque podés
priorizar: un cliente con P(cancel)=0.92 necesita atención urgente; uno con P=0.55 puede esperar.
Ejemplo 3: Árbol de Decisión con interpretación
Los árboles generan reglas legibles. Podés exportar las reglas y explicar cada decisión al negocio.
Hacé clic en ▶ Ejecutar
Ejemplo 4: Regresión Lineal Múltiple
La regresión no se limita a una variable. Con múltiples features podés hacer predicciones mucho más precisas.
Hacé clic en ▶ Ejecutar
Ejemplo 5: Comparación completa de modelos con visualización
Probamos 4 algoritmos, comparamos métricas y visualizamos los resultados.
Hacé clic en ▶ Ejecutar
Referencia rápida
| Algoritmo | Import | Parámetros clave |
|---|---|---|
| Regresión Lineal | LinearRegression() |
(sin hiperparámetros - ajusta automáticamente) |
| Reg. Logística | LogisticRegression() |
max_iter, C (regularización) |
| Árbol Decisión | DecisionTreeClassifier() |
max_depth, min_samples_split |
| KNN | KNeighborsClassifier() |
n_neighbors (K) |
| Métrica regresión | Código | Ideal |
|---|---|---|
| MAE | mean_absolute_error(y, pred) |
0 (menor = mejor) |
| R² | r2_score(y, pred) |
1 (mayor = mejor) |
Ejercicios
Ejercicio 1: Regresión Lineal simple
Entrenáuna regresión lineal de Metros2 → Precio. Imprimí el coeficiente. Debe incluir un número (ej:
2).
Hacé clic en ▶ Ejecutar
Ejercicio 2: Predecir con regresión lineal
Usá el modelo entrenado para predecir el precio de un depto de 100 m². Debe incluir 250.
Hacé clic en ▶ Ejecutar
Ejercicio 3: R² — bondad de ajuste
Calculá el R² del modelo de regresión. Debe incluir un valor alto (ej: 0.9).
Hacé clic en ▶ Ejecutar
Ejercicio 4: Reg. Logística con probabilidades
Entrenáuna regresión logística y usá predict_proba para obtener probabilidades. Imprimí la
probabilidad del primer caso de test. Debe incluir 0..
Hacé clic en ▶ Ejecutar
Ejercicio 5: Árbol de decisión — exportar reglas
Entrenáun árbol con max_depth=2 e imprimí las reglas con export_text. Debe incluir
<= (símbolo de regla).
Hacé clic en ▶ Ejecutar
Ejercicio 6: KNN — probar distintas K
Probá KNN con K = 1, 3, 5, 7, 9. Imprimí la accuracy de cada uno. Debe incluir k=.
Hacé clic en ▶ Ejecutar
Ejercicio 7: Regresión múltiple con MAE
Entrená regresión con 3 features, evaluá con MAE y R². Debe incluir R².
Hacé clic en ▶ Ejecutar
Ejercicio 8: Visualizar regresión lineal
Entrenáuna regresión y graficá los puntos reales + la recta de predicción. Imprimí Gráfico OK.
Hacé clic en ▶ Ejecutar
Ejercicio 9: Feature importance del árbol
Entrenaun árbol con 3 features. Imprimí la importancia de cada una ordenada de mayor a menor. Debe incluir
Importancia.
Hacé clic en ▶ Ejecutar
Ejercicio 10: Pipeline completo con gráfico de comparación
Compará 3 clasificadores, generá un gráfico de barras con sus accuracy, precision y recall. Imprimí
Comparación completa.
Hacé clic en ▶ Ejecutar
Resumen y conexión
- Regresión Lineal: predice números. Interpretación directa: "por cada unidad de X, Y cambia en coef."
- Regresión Logística: predice probabilidades (0 a 1). Perfecta para scoring y clasificación binaria.
- Árboles de Decisión: generan reglas legibles.
max_depthcontrola la complejidad (evitar overfitting). - KNN: clasifica por cercanía. Simple pero efectivo.
Kgrande = más estable, menos detallado. - Para regresión usá MAE y R². Para clasificación usá accuracy, precision, recall.
- Feature importance te dice qué variables son las más influyentes en las predicciones.
- Siempre compará al menos 2-3 modelos antes de elegir uno.
En la siguiente lección (16 · Power BI / Tableau intro) vas a aprender cómo llevar tus análisis a herramientas de visualización empresarial que usan los equipos de Business Intelligence en todo el mundo.
Recursos: scikit-learn Supervised Learning · Model Evaluation