🌊 Cos'è un Data Lake
📥 Il bacino di raccolta universale
A differenza del Data warehouse (che è come un magazzino ordinato), il Data Lake è come un lago naturale: ci confluiscono fiumi di dati da ogni fonte, nel loro stato originale.
⚙️ Caratteristiche
- Schema-on-Read: Non devi definire la struttura prima di salvare i dati (come nel DB classico). La definisci quando li leggi.
- Flessibilità: Accetta tutto (JSON, CSV, Immagini, Log, Video).
- Costo: Generalmente economico (basato su Object Storage come S3 o Azure Blob).
🆚 Data Lake vs Data Warehouse
| Caratteristica | Data Lake 🌊 | Data Warehouse 🏢 |
|---|---|---|
| Dati | Grezzi, non strutturati | Puliti, strutturati |
| Utenti | Data Scientists, Engineers | Business Analysts |
| Schema | On-Read (flessibile) | On-Write (rigido) |
| Agilità | Alta | Bassa |
⚠️ Il Rischio "Data Swamp"
Se butti tutto nel lago senza catalogarlo, diventa una palude.
Per questo serve:
- Data Governance
- 🗂️ Metadati e Data Lineage
- Strati di affidabilità come Delta Lake
🎯 Obiettivo
Avere un posto unico dove atterrano tutti i dati aziendali, pronti per essere esplorati o trasformati successivamente.