#DataLake #BigData #Storage #Architettura #Definizioni

🌊 Cos'è un Data Lake

📥 Il bacino di raccolta universale

A differenza del Data warehouse (che è come un magazzino ordinato), il Data Lake è come un lago naturale: ci confluiscono fiumi di dati da ogni fonte, nel loro stato originale.

⚙️ Caratteristiche

Schema-on-Read: Non devi definire la struttura prima di salvare i dati (come nel DB classico). La definisci quando li leggi.
Flessibilità: Accetta tutto (JSON, CSV, Immagini, Log, Video).
Costo: Generalmente economico (basato su Object Storage come S3 o Azure Blob).

🆚 Data Lake vs Data Warehouse

Caratteristica	Data Lake 🌊	Data Warehouse 🏢
Dati	Grezzi, non strutturati	Puliti, strutturati
Utenti	Data Scientists, Engineers	Business Analysts
Schema	On-Read (flessibile)	On-Write (rigido)
Agilità	Alta	Bassa

⚠️ Il Rischio "Data Swamp"

Se butti tutto nel lago senza catalogarlo, diventa una palude.
Per questo serve:

Data Governance
🗂️ Metadati e Data Lineage
Strati di affidabilità come Delta Lake

🎯 Obiettivo

Avere un posto unico dove atterrano tutti i dati aziendali, pronti per essere esplorati o trasformati successivamente.

#DataLake #BigData #Storage #Architettura #Definizioni