Data Analysis · Lección 03 de 19

Lectura de Datos (I/O)

En el trabajo corporativo no creamos diccionarios a mano: abrimos bases crudas de miles o millones de filas. Estas bases suelen ser archivos CSV o respuestas SQL. Aquí dominarás read_csv(), la función estrella para ingerir datos.

50–70 min Prerrequisitos: Series y DataFrames

Teoría: El Input/Output de pandas

La sigla I/O (Input/Output o Entrada/Salida) se refiere a cómo la máquina virtual de Python recibe datos del exterior (Input) y los exporta modificados (Output).

A diferencia de Excel, donde tenés que dar Doble Clic sobre un ícono y esperar a que la computadora cargue una interfaz pesada y visual, pandas puede ingerir archivos ridículamente grandes ("millones de registros") silenciosamente en de un instante.

La familia read_*()

Todos los comandos de lectura en pandas empiezan con pd.read_ seguido de la extensión/formato. Los más usados son:

pd.read_csv("archivo.csv"): Para la gran mayoría de datos exportados de DBs o sistemas. (CSV = Comma Separated Values).
pd.read_excel("ventas.xlsx"): Para archivos puros de Excel con pestañas.
pd.read_sql(): Para ir a buscar la tabla directamente usando una query contra un motor en vivo.
pd.read_json(): Muy usado cuando consultamos un endpoint web/API.

En este curso interactivo (al estar corriendo Python en tu navegador por seguridad) no tendrías forma de darle la ruta en C:\Mis Documentos\dataset.csv" al entorno. Por ello, vas a ver que utilizamos un pequeño truco con io.StringIO que hace que Python crea que un simple texto largo escrito en el código es un archivo real. En tu trabajo de escritorio esto no será necesario (basta con poner la URL local).

Ejemplo: Tu primer read_csv()

A continuación vamos a simular un archivo CSV extraído de las ventas regionales en sucursales en Argentina. Observá cómo transformamos el texto separado por comas directamente al poderoso DataFrame.

leyendo_csv.pyPython

import pandas as pd
import io

# Simulamos que esto proviene de un archivo físico "ventas.csv"
archivo_falso = """ID_Loc,Ciudad,Venta_USD,Activa
1001,CABA,25000,True
1002,Rosario,18000,True
1003,Córdoba,21000,False
1004,Mendoza,15500,True
"""
# Con la librería estandar io preparamos el "archivo virtual"
buffer = io.StringIO(archivo_falso)

# LECTURA - La sentencia definitiva
df_ventas = pd.read_csv(buffer)

print("=== Imprimiendo el DataFrame ingestado ===")
print(df_ventas)

Hacé clic en ▶ Ejecutar

El clásico problema de delimitadores

En USA/Europa las bases de datos separan las columnas con comas (,). Pero en Argentina usamos la coma para los decimales (ej $15,50), entonces nuestros sistemas viejos exportan CSVs separados por puntos y comas (;) u otros caracteres.

Si intentás leer eso con "read_csv" estandar, todo colapsará. Para evitarlo la función tiene el mejor parámetro salva-vidas: sep=";".

separadores.pyPython

import pandas as pd
import io

# Ojo: Múltiples columnas pegadas mediante un punto y coma y la barra vertical `|`
archivo_espeso = """Producto|Categoria|Stock_Disponible
Galletas|Alimentos|50
Vino|Bebidas|150
Detergente|Limpieza|80"""

print("Si leemos esto sin avisarle a Pandas el delimitador, se hace lio...")
df_malo = pd.read_csv(io.StringIO(archivo_espeso)) # Pandas asume ","
print(df_malo)

print("\n\nAhora indicando explícitamente el separador adecuado sep='|':")
# El parámetro sep toma lo que le envies.
df_bueno = pd.read_csv(io.StringIO(archivo_espeso), sep="|")
print(df_bueno)

Hacé clic en ▶ Ejecutar

Observar la cabecera: .head() y .tail()

Cuando ingestás millones de filas de datos, si imprimís usando print(df), la pantalla se colgaría o te mostraría tanto texto que tu cerebro se tilda. A los Data Analysts les encantan dos funciones para "ver rapidito qué nos trajo la base de datos":

df.head(n) (Devuelve las primeras "n" filas. Por omisión: 5)
df.tail(n) (Devuelve las últimas "n" filas. Excelente para ver si el reporte llegó al final adecuadamente)

head_tail.pyPython

import pandas as pd
import io

dataset_largo = """Rango,Monto
Diciembre,4400
Enero,4500
Febrero,4200
Marzo,4900
Abril,3100
Mayo,2500
Junio,2600
Julio,3000"""

df_tiempo = pd.read_csv(io.StringIO(dataset_largo))

print("=== Las primeras 3 filas (head) ===")
print(df_tiempo.head(3))

print("\n=== Las ultimas 2 filas (tail) ===")
print(df_tiempo.tail(2))

Hacé clic en ▶ Ejecutar

Tip profesional: Usar df.head() al iniciar tus scripts (o Notebooks) permite validar rápidamente que a) El separador esté correcto, b) Las columnas mantengan nombres sanos, c) No haya filas de basura.

Ejercicios interactivos

Manos al bloque. Practicá la ingesta del sistema simulado.

Nivel 1 · Básico

Ejercicio 1: Tu primera lectura con separador

El sistema te devuelve un texto separado por tabulaciones o barras. Acá usaremos la coma. Dejá el separador default, decile a Pandas que lea el buffer usando read_csv() y guardalo en la variable `df_empleados`. Luego imprimí TODO usando `print()`.

ej_01_read.pyDebe contener la palabra "Soporte" del print

import pandas as pd
import io

rrhh_data = """Nombre,Area,Salario
Marta,Logistica,800K
Joaquin,Soporte,400K
Belen,Ventas,650K"""
buffer = io.StringIO(rrhh_data)

# Utilizá pd.read_csv(buffer) y guardalo en df_empleados:

Hacé clic en ▶ Ejecutar

Nivel 2 · Intermedio

Ejercicio 2: Exigiendo separadores estrictos

Trabajás en un banco, y el sistema Cobis viejo reporta los balances de las cuentas usando el símbolo ampersand &. Modificá el parámetro sep para que lea bien la base de datos y mostrá solamente el promedio (usando .mean()) de los Saldos.

ej_02_separadores.pyDebe dar un promedio de "260.0"

import pandas as pd
import io

cobis_data = """Cuenta&Saldo_Nominal
A001&150.5
A002&402.1
A003&227.4"""
buffer = io.StringIO(cobis_data)

# Agregá el argumento sep="&" al read_csv
df_banco = pd.read_csv(buffer) # Corregir acá

# Calcula e imprime el promedio de Saldo_Nominal

Hacé clic en ▶ Ejecutar

Nivel 3 · Avanzado

Ejercicio 3: Extracción exploratoria con Head

Usá .head(2) en un print para validar las primeras 2 filas. El output debe contar con la presencia de "Apple" validándose que leímos el top 2 exitosamente.

ej_03_head.pyLa palabra Apple debe estar visible

import pandas as pd
import io

stock_data = """Ticker,Nombre,Precio
MSFT,Microsoft,400
AAPL,Apple,195
META,Meta,450
NVDA,Nvidia,900
GOOG,Alphabet,140"""
buffer = io.StringIO(stock_data)

df_acciones = pd.read_csv(buffer)

# Mostrá únicamente las 2 primeras filas utilizando head

Hacé clic en ▶ Ejecutar

Reflexión Final

Leer datos parece un paso simple, pero configurar correctamente read_csv() va a evitar que pierdas horas limpiando caracteres fantasmas en el futuro.

Ahora que las bases de datos externas ya están en nuestro entorno local formadas como DataFrames perfectos, comienza el verdadero trabajo: cómo encontrar exactamente los clientes, fechas o productos que el gerente nos está exigiendo buscar.

Avanzá a la siguiente lección (04 · pandas: selección y filtrado) para aprender la parte de Queries y filtros.

Hecho con ❤️ por Rodri Gonzalez