QuieroProgramar por Rodri Gonzalez
Data Analysis · Lección 01 de 19

¿Qué es Data Analysis?

El mercado está lleno de datos, pero los datos crudos no sirven para tomar decisiones. Un Data Analyst es el puente entre una base de datos caótica y la decisión de negocios de un gerente. En esta ruta vas a aprender la herramienta profesional número uno: pandas.

45–60 min Prerrequisitos: Fundamentos de Python
01

El rol del Data Analyst

¿Qué hacemos realmente?

Existe el mito de que un analista de datos está todo el día escribiendo algoritmos de inteligencia artificial. La realidad del 90% de los roles de Data Analyst (especialmente en LATAM) es muy distinta. El ciclo de vida de nuestro trabajo suele ser:

  1. Entiende el problema comercial: Negocio pregunta "¿Por qué cayeron las ventas cruzadas este mes?".
  2. Extracción (SQL): Te conectás a la base de datos de la empresa y extraés las tablas de ventas, clientes y campañas.
  3. Limpieza y Transformación (Python / pandas): Limpiás los nulos, corregís formatos de fechas y unís las tablas. Esta es la parte que más tiempo lleva.
  4. Análisis Exploratorio (EDA): Buscás patrones. Descubrís que un segmento etario específico dejó de comprar porque el medio de pago fallaba.
  5. Comunicación (BI / Viz): Armás un gráfico claro o un dashboard en Power BI para mostrarle a negocio dónde está el problema y proponer una solución.
Tu objetivo final: Convertir millones de filas incomprensibles en insights (hallazgos accionables) que generen o ahorren plata a la empresa. Nada más y nada menos.

El Stack de Herramientas

Para lograr todo eso, la caja de herramientas estándar de la industria se compone de tres pilares, que son exactamente los que vas a dominar en esta plataforma:

Herramienta Propósito Analogía
SQL Extraer datos masivos de la base. Es el camión de minería extrayendo la tierra con oro de la montaña.
Python (pandas) Limpiar, filtrar, agrupar y analizar. Es la planta refinadora que separa la tierra y pule el oro.
Power BI / Tableau Visualización interactiva y reportes. Es la vidriera iluminada de la joyería donde el cliente ve el oro brillando.

Acá nos vamos a enfocar fuertemente en el corazón del análisis: Python a través de la librería pandas.

02

Primer contacto con pandas

pandas es una librería externa de Python. No viene por defecto, hay que instalarla e importarla. Cuando trabajamos en entornos locales usamos `pip install pandas`, pero acá en nuestro navegador ya la tenemos lista para usar.

El formato sagrado: Por convención mundial, pandas siempre se importa con el alias pd. Vas a ver import pandas as pd en literalmente todos los scripts de datos corporativos. No ofendas a los dioses del código usando otro alias.

Ejemplo en vivo: Tu primer DataFrame

Un DataFrame es la estructura clave de pandas. Imaginalo simplemente como una tabla de Excel potenciada con esteroides, que vive en la memoria de tu computadora.

hola_pandas.pyPython

        
Hacé clic en ▶ Ejecutar

El poder oculto de pandas: Estadísticas en 1 línea

Lo genial de tener los datos en un DataFrame no es imprimirlos, sino analizarlos velozmente sin necesidad de hacer bucles for manuales.

poder_analitico.pyPython

        
Hacé clic en ▶ Ejecutar
Tip profesional: Fijate cómo df['Canal'].value_counts() nos devolvió un conteo instantáneo de categorías. Esta función la vas a usar millones de veces en tu carrera para entender cómo se distribuyen tus bases de datos.
03

Ejercicios

Ya es momento de soltar las manos. Estos primeros ejercicios son para familiarizarte con el entorno de pandas. Recordá, siempre el alias debe ser pd.

Nivel 1 · Básico

Ejercicio 1: Tu primer import y sumatoria

Creá un DataFrame llamado df_kpis utilizando el diccionario provisto. Luego, usando pandas, imprimí la suma de la columna `'Ingresos'`. Utilizá la función .sum(). Recordá importar la librería adecuadamente. (El resultado esperado debe ser 2800).

ejercicio_01.pyDebe incluir "2800"

          
Hacé clic en ▶ Ejecutar
Nivel 2 · Intermedio

Ejercicio 2: Estadísticas descriptivas simples

A partir del dataset de salarios, utilizá .max() y .mean() para imprimir en pantalla el salario más alto y el salario promedio. El resultado numérico del máximo (380) debe verse en tu output.

ejercicio_02.pyDebe incluir "380"

          
Hacé clic en ▶ Ejecutar
Nivel 3 · Avanzado

Ejercicio 3: Frecuencias con value_counts

En el área de riesgo crediticio es crucial saber cuántos préstamos fueron Aprobados vs Rechazados. Usando .value_counts(), imprimí la cantidad de ocurrencias de cada "Estado". Deben verse los valores "Aprobado" y la cantidad "3".

ejercicio_03.pyDebe incluir la cantidad "3" y "Aprobado"

          
Hacé clic en ▶ Ejecutar
04

Resumen rápido

En la siguiente lección (02 · pandas: Series y DataFrames) nos meteremos de lleno en las dos estructuras fundamentales de la librería para dominar su anatomía interna por completo.