Cos'è un data lake?

Un data lake è un repository centralizzato che permette di archiviare tutti i dati strutturati e non su qualsiasi scala. È possibile archiviare i dati così come sono, senza doverli prima strutturare, ed eseguire diversi tipi di analisi dei dati - da pannelli di controllo e visualizzazioni all'elaborazione di Big Data, analisi dei dati in tempo reale e machine learning per prendere decisioni migliori.

Perché serve un data lake?

Le organizzazioni che generano valore aziendale dai loro dati in modo proficuo supereranno le concorrenti in modo significativo. Un sondaggio di 451 Research ha mostrato che più della metà delle aziende intervistate dispone di un data lake già implementato; un altro 22% dice di avere piani per un data lake entro 36 mesi. Le aziende che implementano architetture di dati moderne, compresi i data lake, hanno dimostrato vantaggi misurabili in termini di efficienza operativa e crescita dei ricavi. Questi leader utilizzano analisi avanzate, intelligenza artificiale e modelli linguistici di grandi dimensioni su diverse origini dati, tra cui flussi in tempo reale, sensori IoT, social media e dati sulle interazioni con i clienti. Questa strategia completa sui dati consente loro di prendere decisioni basate sui dati più velocemente, personalizzare le esperienze dei clienti, ottimizzare le operazioni attraverso la manutenzione predittiva e identificare nuove opportunità di guadagno prima della concorrenza.

Quali sono gli elementi fondamentali di un data lake e di una soluzione di analisi dei dati?

Man mano che le organizzazioni costruiscono data lake e una piattaforma di analisi dei dati, devono considerare una serie di funzionalità chiave, tra cui:

Trasferimento dati

I data lake permettono di importare qualsiasi quantità di dati che arrivano in tempo reale. I dati vengono raccolti da più fonti e spostati nel data lake in formato originale. Questo processo permette di dimensionare dati di qualsiasi dimensione, risparmiando il tempo necessario a definire strutture di dati, schemi e trasformazioni.

Archivia e cataloga dati in modo sicuro

I data lake permettono di archiviare dati relazionali come database operativi e dati da applicazioni line of business, e dati non relazionali come applicazioni per dispositivi mobili, dispositivi IoT e social media. Permettono anche di capire quali dati si trovano nel data lake attraverso la ricerca per indicizzazione, la catalogazione e l'indicizzazione dei dati. Infine, bisogna mettere in sicurezza i dati per garantire la protezione delle risorse di dati.

Analisi

I data lake permettono a vari ruoli nell'organizzazione come data scientist, sviluppatori di dati e analisti aziendali di accedere ai dati scegliendo i propri strumenti analitici e framework. Questo include framework open source come Apache Hadoop, Presto e Apache Spark, oltre a offerte commerciali da fornitori di data warehouse e business intelligence. I data lake permettono di eseguire l'analisi dei dati senza spostarli in un sistema di analisi dei dati separato.

Scopri di più sull'analisi dei dati »

Machine learning

I data lake permetteranno alle organizzazioni di generare diversi tipi di informazioni dettagliate, compreso il resoconto sui dati storici e il machine learning in cui i modelli sono costruiti per prevedere i risultati probabili e suggerire una serie di operazioni necessarie al raggiungimento del miglior risultato.

Scopri di più sul machine learning »

Come si confronta un data warehouse con un data lake?

A seconda dei requisiti, un'organizzazione standard richiederà sia un data warehouse che un data lake, in quanto adempiono a necessità e casi d'uso diversi.

Un data warehouse è un database ottimizzato per analizzare dati relazionali provenienti da sistemi transazionali e applicazioni line of business. La struttura dei dati e lo schema sono definiti preventivamente per ottimizzare le query SQL veloci, in cui i risultati sono utilizzati di solito per il resoconto operativo e l'analisi. I dati vengono riordinati, arricchiti e trasformati in modo da poter agire come "unica fonte di verità" a cui gli utenti possono fare affidamento.

Ulteriori informazioni sui data warehouse »

Un data lake è diverso, in quanto archivia dati relazionali da applicazioni line of business, e dati non relazionali da applicazioni per dispositivi mobili, dispositivi IoT e social media. La struttura dei dati o lo schema non sono definiti quando vengono acquisiti i dati. Questo significa che puoi archiviare tutti i dati senza un'attenta progettazione o senza sapere quali domande avranno bisogno di risposte in futuro. Per rilevare informazioni dettagliate, è possibile utilizzare diversi tipi di analisi dei dati su dati come le query SQL, l'analisi dei Big Data, la ricerca di testo completo, l'analisi dei dati in tempo reale e il machine learning.

Man mano che le organizzazioni con data warehouse toccano con mano i vantaggi dei data lake, evolvono il loro warehouse per includere data lake e abilitare diverse funzionalità di query, casi d'uso di Data Science e funzionalità avanzate per scoprire nuovi modelli di informazioni. Gartner definisce questa evoluzione "Data Management Solution for Analytics" o "DMSA" (soluzione di gestione dei dati per l'analisi).

Per un confronto approfondito tra data lake e data warehouse, visita la nostra pagina di confronto tra data lake e data warehouse dedicata.

Qual è il valore dei data lake?

La capacità di sfruttare più dati da più fonti in meno tempo e di permettere agli utenti di collaborare e analizzare i dati in modi diversi porta a un processo decisionale migliore e più veloce. Tra gli esempi in cui i data lake hanno valore aggiunto troviamo:

Interazioni migliori con i clienti

Un data lake può combinare i dati dei clienti da una piattaforma CRM con l'analisi dei dati dei social media, una piattaforma di marketing che include la cronologia degli acquisti e i ticket degli incidenti per permettere all'azienda di individuare la coorte di clienti più redditizia, la causa della perdita dei clienti e le promozioni o i premi che ne aumentano la fidelizzazione.

Migliora le scelte di innovazione di Ricerca e Sviluppo

Un data lake può aiutare i team di Ricerca e Sviluppo a testare ipotesi, perfezionarle e valutare risultati, come scegliere i materiali giusti nella progettazione del prodotto per portare a prestazioni più veloci, effettuare la ricerca genomica per ottenere farmaci più efficaci o comprendere la disponibilità dei clienti a pagare diversi attributi.

Migliora l'efficienza operativa

L'Internet of Things (IoT) introduce vari modi per raccogliere dati su processi come la produzione, con dati in tempo reale provenienti da dispositivi connessi a Internet. Un data lake semplifica l'archiviazione e l'esecuzione di analisi dei dati IoT generati dalla macchina per scoprire modi per ridurre i costi operativi e aumentare la qualità.

Ulteriori informazioni sull'Internet delle cose (IoT) »

Quali sono le sfide dei data lake?

La sfida principale con un'architettura dei data lake consiste nel fatto che i dati non elaborati sono archiviati senza alcuna supervisione dei contenuti. Affinché un data lake renda i dati utilizzabili, deve avere dei meccanismi specifici per catalogare e proteggere i dati. Senza questi elementi non è possibile trovare i dati o reputarli affidabili; in questo caso, potremmo essere di fronte a una "palude di dati". Soddisfare le esigenze di una clientela più ampia implica che i data lake debbano avere governance, coerenza semantica e controlli di accesso.

Come si implementano i data lake nel cloud?

I data lake sono un carico di lavoro ideale da implementare nel cloud perché quest'ultimo fornisce prestazioni, scalabilità, affidabilità, disponibilità, una serie diversificata di motori analitici e imponenti economie di scala. Il 66% degli intervistati da 451 Research afferma che il cloud pubblico è l'ambiente di archiviazione di oggetti che viene o verrà utilizzato per il proprio ambiente principale di data lake. Le ragioni principali per cui i clienti hanno percepito il cloud come un vantaggio per i data lake sono una migliore sicurezza, tempi più rapidi per l'implementazione, migliore disponibilità, aggiornamenti più frequenti di caratteristiche/funzionalità, maggiore elasticità, maggiore copertura geografica e costi legati all'utilizzo effettivo.

In che modo AWS può supportare i tuoi requisiti di data lake?

AWS offre il portfolio di servizi più sicuro, scalabile, completo ed economicamente vantaggioso, che consente ai clienti di costruire data lake nel cloud, analizzarne tutti i dati, inclusi quelli provenienti dai dispositivi IoT, con una varietà di approcci analitici che includono il machine learning. Pertanto, ci sono più organizzazioni che eseguono data lake e analisi dei dati su AWS che altrove, vantando clienti come NETFLIX, Zillow, NASDAQ, Yelp, iRobot e FINRA, che si affidano ad AWS per eseguire carichi di lavoro critici di analisi dei dati.

Inizia oggi stesso a utilizzare i data lake su AWS creando un account.

Fasi successive su AWS

Consulta ulteriori risorse correlate al prodotto
Visualizza le offerte gratuite per i servizi Analytics nel cloud 
Registrati per creare un account gratuito

Ottieni accesso istantaneo al Piano gratuito di AWS.

Registrati 
Inizia a lavorare nella console

Inizia subito a creare nella Console di gestione AWS.

Accedi