
Este foi meu primeiro projeto de engenharia de dados, focado em construir um pipeline ETL A ideia foi manter algo simples, só para entender o fluxo completo de ETL na prática: extrair dados brutos, validar qualidade, transformar informações e carregar o resultado final para análise.

Desenho da Arquitetura
Dataset: NYC Yellow Taxi Trips
Link (Kaggle): https://www.kaggle.com/datasets/elemento/nyc-yellow-taxi-trip-data
Repositório no github: https://github.com/vbluuiza/YT-batch-ETL-NYC--Yellow-Taxi-Data-Engineer-First-Project
Sobre este dataset
Estrutura do dataset
| Coluna | Tipo | Descrição |
|---|---|---|
| VendorID | int | Provedor TPEP |
| (1 = Creative Mobile Technologies, 2 = VeriFone Inc.) | ||
| tpep_pickup_datetime | datetime | Data/hora de início (taxímetro ativado) |
| tpep_dropoff_datetime | datetime | Data/hora de fim (taxímetro desativado) |
| passenger_count | int | Número de passageiros |
| trip_distance | float | Distância (milhas) |
| pickup_longitude | float | Longitude do pickup |
| pickup_latitude | float | Latitude do pickup |
| RatecodeID | int | Código de tarifa |
| (1 = Standard, 2 = JFK, 3 = Newark, 4 = Nassau/Westchester, 5 = Tarifa negociada, 6 = Corrida em grupo) | ||
| store_and_fwd_flag | string | Registro armazenado antes de envio (Y = sim, N = não), quando não havia conexão |
| dropoff_longitude | float | Longitude do dropoff |
| dropoff_latitude | float | Latitude do dropoff |
| payment_type | int | Forma de pagamento |
| (1 = Cartão de crédito, 2 = Dinheiro, 3 = Sem cobrança, 4 = Disputa, 5 = Desconhecido, 6 = Corrida cancelada) | ||
| fare_amount | float | Tarifa ($) |
| extra | float | Extras/sobretaxas (inclui $0,50 e $1,00 de pico/noturno) |
| mta_tax | float | Imposto MTA $0,50 |
| improvement_surcharge | float | Sobretaxa de melhoria $0,30 |
| tip_amount | float | Gorjeta (preenchida automaticamente para cartão; gorjeta em dinheiro não entra) |
| tolls_amount | float | Pedágios ($) |
| total_amount | float | Total cobrado ($), sem incluir gorjetas em dinheiro |
Possibilidades de análise
Exemplo de registro:
| VendorID | Pickup | Dropoff | Passageiros | Distância | Pickup (coords) | Dropoff (coords) | RatecodeID | Payment | Tarifa | Gorjeta | Total |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 2016-03-01 00:00:00 | 2016-03-01 00:07:55 | 1 | 2.50 milhas | (-73.977, 40.765) | (-74.004, 40.746) | 1 (Standard) | 1 (Cartão de crédito) | $9.00 | $2.05 | $12.3 |
.csv (dados brutos)trip_duration_min, trip_speed_mph, revenue_per_mile, hour_of_day, date, day_of_week, tip_pct