¿Qué es Data Analysis?
El mercado está lleno de datos, pero los datos crudos no sirven para tomar decisiones. Un Data Analyst es el puente entre una base de datos caótica y la decisión de negocios de un gerente. En esta ruta vas a aprender la herramienta profesional número uno: pandas.
El rol del Data Analyst
¿Qué hacemos realmente?
Existe el mito de que un analista de datos está todo el día escribiendo algoritmos de inteligencia artificial. La realidad del 90% de los roles de Data Analyst (especialmente en LATAM) es muy distinta. El ciclo de vida de nuestro trabajo suele ser:
- Entiende el problema comercial: Negocio pregunta "¿Por qué cayeron las ventas cruzadas este mes?".
- Extracción (SQL): Te conectás a la base de datos de la empresa y extraés las tablas de ventas, clientes y campañas.
- Limpieza y Transformación (Python / pandas): Limpiás los nulos, corregís formatos de fechas y unís las tablas. Esta es la parte que más tiempo lleva.
- Análisis Exploratorio (EDA): Buscás patrones. Descubrís que un segmento etario específico dejó de comprar porque el medio de pago fallaba.
- Comunicación (BI / Viz): Armás un gráfico claro o un dashboard en Power BI para mostrarle a negocio dónde está el problema y proponer una solución.
El Stack de Herramientas
Para lograr todo eso, la caja de herramientas estándar de la industria se compone de tres pilares, que son exactamente los que vas a dominar en esta plataforma:
| Herramienta | Propósito | Analogía |
|---|---|---|
| SQL | Extraer datos masivos de la base. | Es el camión de minería extrayendo la tierra con oro de la montaña. |
| Python (pandas) | Limpiar, filtrar, agrupar y analizar. | Es la planta refinadora que separa la tierra y pule el oro. |
| Power BI / Tableau | Visualización interactiva y reportes. | Es la vidriera iluminada de la joyería donde el cliente ve el oro brillando. |
Acá nos vamos a enfocar fuertemente en el corazón del análisis: Python a través de la librería
pandas.
Primer contacto con pandas
pandas es una librería externa de Python. No viene por defecto, hay que instalarla e importarla.
Cuando trabajamos en entornos locales usamos `pip install pandas`, pero acá en nuestro navegador ya la tenemos
lista para usar.
pandas siempre se
importa con el alias pd. Vas a ver import pandas as pd en literalmente todos los
scripts de datos corporativos. No ofendas a los dioses del código usando otro alias.Ejemplo en vivo: Tu primer DataFrame
Un DataFrame es la estructura clave de pandas. Imaginalo simplemente como una tabla de Excel potenciada con esteroides, que vive en la memoria de tu computadora.
Hacé clic en ▶ Ejecutar
El poder oculto de pandas: Estadísticas en 1 línea
Lo genial de tener los datos en un DataFrame no es imprimirlos, sino analizarlos velozmente sin necesidad de
hacer bucles for manuales.
Hacé clic en ▶ Ejecutar
df['Canal'].value_counts() nos
devolvió un conteo instantáneo de categorías. Esta función la vas a usar millones de veces en tu carrera para
entender cómo se distribuyen tus bases de datos.Ejercicios
Ya es momento de soltar las manos. Estos primeros ejercicios son para familiarizarte con el entorno de
pandas. Recordá, siempre el alias debe ser pd.
Ejercicio 1: Tu primer import y sumatoria
Creá un DataFrame llamado df_kpis utilizando el diccionario provisto. Luego, usando pandas,
imprimí la suma de la columna `'Ingresos'`. Utilizá la función .sum(). Recordá
importar la librería adecuadamente. (El resultado esperado debe ser 2800).
Hacé clic en ▶ Ejecutar
Ejercicio 2: Estadísticas descriptivas simples
A partir del dataset de salarios, utilizá .max() y .mean() para imprimir en
pantalla el salario más alto y el salario promedio. El resultado numérico del máximo (380) debe verse en tu
output.
Hacé clic en ▶ Ejecutar
Ejercicio 3: Frecuencias con value_counts
En el área de riesgo crediticio es crucial saber cuántos préstamos fueron Aprobados vs Rechazados. Usando
.value_counts(), imprimí la cantidad de ocurrencias de cada "Estado". Deben verse los valores
"Aprobado" y la cantidad "3".
Hacé clic en ▶ Ejecutar
Resumen rápido
- Un Data Analyst extrae datos, los limpia, los explora y genera insights de negocio.
- pandas es la herramienta principal en Python, y siempre se importa como
pd. - Un DataFrame es la representación en tabla (filas y columnas) que usamos para trabajar con pandas.
- Métodos geniales:
.sum()(sumatoria),.mean()(promedio),.max()(máximo), y.value_counts()(para contar repeticiones de categorías).
En la siguiente lección (02 · pandas: Series y DataFrames) nos meteremos de lleno en las dos estructuras fundamentales de la librería para dominar su anatomía interna por completo.