redes-vbluuiza (1).png

Este foi meu primeiro projeto de engenharia de dados, focado em construir um pipeline ETL A ideia foi manter algo simples, só para entender o fluxo completo de ETL na prática: extrair dados brutos, validar qualidade, transformar informações e carregar o resultado final para análise.

Desenho da Arquitetura

Desenho da Arquitetura

Dataset: NYC Yellow Taxi Trips

Link (Kaggle): https://www.kaggle.com/datasets/elemento/nyc-yellow-taxi-trip-data

Repositório no github: https://github.com/vbluuiza/YT-batch-ETL-NYC--Yellow-Taxi-Data-Engineer-First-Project

Instalação WSL

Instalação UV – Como fazer

Sobre este dataset

Estrutura do dataset

Coluna Tipo Descrição
VendorID int Provedor TPEP
(1 = Creative Mobile Technologies, 2 = VeriFone Inc.)
tpep_pickup_datetime datetime Data/hora de início (taxímetro ativado)
tpep_dropoff_datetime datetime Data/hora de fim (taxímetro desativado)
passenger_count int Número de passageiros
trip_distance float Distância (milhas)
pickup_longitude float Longitude do pickup
pickup_latitude float Latitude do pickup
RatecodeID int Código de tarifa
(1 = Standard, 2 = JFK, 3 = Newark, 4 = Nassau/Westchester, 5 = Tarifa negociada, 6 = Corrida em grupo)
store_and_fwd_flag string Registro armazenado antes de envio (Y = sim, N = não), quando não havia conexão
dropoff_longitude float Longitude do dropoff
dropoff_latitude float Latitude do dropoff
payment_type int Forma de pagamento
(1 = Cartão de crédito, 2 = Dinheiro, 3 = Sem cobrança, 4 = Disputa, 5 = Desconhecido, 6 = Corrida cancelada)
fare_amount float Tarifa ($)
extra float Extras/sobretaxas (inclui $0,50 e $1,00 de pico/noturno)
mta_tax float Imposto MTA $0,50
improvement_surcharge float Sobretaxa de melhoria $0,30
tip_amount float Gorjeta (preenchida automaticamente para cartão; gorjeta em dinheiro não entra)
tolls_amount float Pedágios ($)
total_amount float Total cobrado ($), sem incluir gorjetas em dinheiro

Possibilidades de análise

Exemplo de registro:

VendorID Pickup Dropoff Passageiros Distância Pickup (coords) Dropoff (coords) RatecodeID Payment Tarifa Gorjeta Total
1 2016-03-01 00:00:00 2016-03-01 00:07:55 1 2.50 milhas (-73.977, 40.765) (-74.004, 40.746) 1 (Standard) 1 (Cartão de crédito) $9.00 $2.05 $12.3

Fluxo do pipeline (passo a passo)

  1. Leitura do CSV
  2. Validação de dados
  3. Remoção (ou tratamento) de registros inválidos
  4. Transformações e criação de novas colunas