Il formato di file Parquet

In ambito Hadoop e file system i file Parquet sono frequentemente utilizzati. I file Parquet sono un file in formato colonnare. Può eseguire compressione e offre ottime performance nelle query. In Parquet nuove colonne possono essere aggiunte alla fine della struttura. Parquet è supportato da Cloudera e ottimizzato per Cloudera Impala. È importante ricordare che i nomi di colonna di Parquet siano lowercase. Se il file Parquet contiene nomi con maiuscole e minuscole, Hive non sarà in grado di leggere le colonne e ritornerà valori nulli nelle queries.

La scelta di un corretto formato di file per le applicazioni è estremamente importante. L'uso di formati di file inefficienti, ad esempio il formato TextFile e l'archiviazione dei dati senza compressione aggrava il problema dei file di piccole dimensioni, influendo sulle prestazioni e sulla scalabilità in diversi modi.

La lettura di dati da tabelle molto ampie (tabelle con un numero elevato di colonne) archiviate in formati non colonnari (TextFile, SequenceFile, Avro) richiede che ogni record sia letto completamente dal disco, anche se sono necessarie solo poche colonne. I formati di colonne, come Parquet, consentono la lettura di sole colonne dal disco, il che può migliorare significativamente le prestazioni.

L'uso di formati di file inefficienti, specialmente quelli non compressi, aumenta l'utilizzo dello spazio HDFS e il numero di blocchi che devono essere tracciati da NameNode. Se i file sono di piccole dimensioni, significa che i dati vengono suddivisi in un numero maggiore di file, aumentando così la quantità di metadati associati da archiviare.

La scelta di un formato di file dipende da diversi fattori:

-       come evolverà la struttura dei dati

-       con quali strumenti saranno elaborati

-       se sarà utilizzato SQL per l’interrogazione

-       se saranno eseguite estrazioni/esportazioni batch da Hadoop verso database esterni o altre piattaforme?

-       se i requisiti di storage sono un fattore significativo

 

Blogs network

Iscrizione alla newsletter

I agree with the Privacy e Termini di Utilizzo
Con l'iscrizione riceverai news sul mondo dell'IT e Big Data.
Back to Top