🔺 Cos'è Delta Lake
🛡️ Affidabilità sul Data Lake
I Data Lake tradizionali hanno un problema: se un processo di scrittura fallisce a metà, i dati restano corrotti. Inoltre, modificare un file è difficile.
Delta Lake risolve questi problemi portando le caratteristiche dei database relazionali (affidabilità) sullo storage economico del Data Lake.
🚀 Funzionalità Chiave
- Transazioni ACID: Garantisce che le operazioni siano "tutto o niente". Niente dati parziali o corrotti.
- Time Travel: Puoi interrogare i dati "come erano ieri". Utile per audit e rollback.
- Schema Enforcement: Impedisce di scrivere dati che non rispettano la struttura prevista (evita la "Data Swamp").
- Unified Batch & Streaming: Una sola tabella può ricevere dati sia da flussi continui che da caricamenti batch.
🏗️ Architettura Medallion
Delta Lake abilita la famosa architettura a medaglione:
- 🥉 Bronze: Dati grezzi (Raw), ingestione diretta.
- 🥈 Silver: Dati puliti, filtrati, arricchiti.
- 🥇 Gold: Dati aggregati, pronti per il business (Data warehouse level).
🎯 Obiettivo
Avere la flessibilità del Data Lake con l'affidabilità del Data Warehouse. (Il concetto di Lakehouse).