Excel contro Big Data

Ogni giorno circa 75 milioni di utenti si attivano per utilizzare Excel, il più famoso strumento per organizzare dati aziendali o personali, per creare report e grafici, per pianificare progetti. Molti di questi utenti non hanno veramente mai imparato ad usarlo in quanto si limitano ad un utilizzo basilare, fino a quando non si trovano ad affrontare questioni di gestione del dato più complesse.

Dal primo rilascio nel 1985 Excel si è molto evoluto ma continua a conservare una funzionalità ed un’interfaccia semplice e per tutti che lo rende appetibile per ogni tipologia di utilizzatore. Il facile approccio ad Excel ci induce ad alcune considerazioni.

Per prima cosa Excel non si impara a scuola o se anche lo si usa non esiste una buona pratica di utilizzo e questo può tradursi in una mancanza di conoscenza organizzata nel mondo delle professioni. Sebbene sia dotata di un linguaggio che ne consente una programmazione, Excel non è facilmente automatizzabile per eseguire attività ripetitive e complesse o per comunicare con altri software, quindi rimane in parte uno strumento per addetti ai lavori. Nell’era dei big data si è sempre più spesso portati a lavorare con file di grandi dimensioni che spesso non possono essere caricati in Excel sul proprio computer personale. Infine, quando si riceve un file Excel arricchito di formule, calcoli, aggregazioni e grafici, è spesso difficile comprendere il metodo di lavoro con il quale è stato impostato, tutto appare molto artigianale e poco metodologico.

Se questi argomenti non sono stati un problema per i decenni trascorsi, ora, con l’avvento di grandi volumi di dati, lo diventano. Nuove figure professionali sono nate recentemente, la più famosa di tutte è il data scientist, per lavorare sui dati ed estrarre o creare valore da essi. Nuovi strumenti di lavoro consentono di raccogliere dati canalizzandoli e organizzandoli al meglio.

Oggi si registra un divario notevole fra la modalità di lavoro personale operante sui propri fogli di lavoro in Excel e la progettazione di pipeline o flussi di dati implementate da ingegneri e specialisti di big data. A causa di questo viene spesa una elevata quantità di tempo e denaro per eseguire pulizia e integrazione dei file personali Excel che spesso contengono informazioni con elevato valore specifico verso complesse e organizzate pipeline di dati.

E’ importante allora tenere presente alcuni aspetti importanti nella progettazione di un foglio Excel. Intanto la prima riga dovrebbe contenere sempre le intestazioni per una migliore comprensione dei dati contenuti nella tabella. La formattazione con colori e caratteri dei dati contenuti nelle celle non è utile per le elaborazioni sebbene possa essere utile per l’utente. Ogni riga di un foglio Excel deve rappresentare una sola osservazione, ad esempio i dati della vendita di un prodotto (articolo, descrizione, prezzo, sconto, etc..) e ciascuna cella deve contenere un dato elementare e non aggregato come somma o media. Infine, unione di celle o asimmetrie di vario genere rendono più difficile la lettura automatica dei dati.

Se in un foglio Excel esistono aggregazioni o funzionalità aggiuntive ai dati come report, grafici o totalizzazioni, è bene sempre tenere separati i dati grezzi dalle elaborazioni. In questo modo, un data scientist o chiunque lavori con un software specifico sarà in grado di leggere i dati in un punto specifico del file Excel.

Con queste piccole indicazioni si rende più facile il lavoro degli specialisti facilitando l’integrazione con altre fonti di dati e portando più valore all'azienda. Queste poche regole, alle quali se ne possono aggiungere molte altre, consentono di ottenere un "linguaggio" più omogeneo per gestire i file Excel e quindi una migliore comprensione e manipolazione dei dati all’interno dell'azienda.

Excel è, quindi, ancora rilevante nell'era dei big data. Lo è sia per le numerose nuove funzionalità rilasciate nelle versioni più recenti, sia perché, nonostante abbia delle limitazioni nella gestione autonoma dei big data (un grafico su un Terabyte di dati è irrealizzabile), può facilitare l’integrazione verso altre piattaforme di dati.

 

Blogs network

Iscrizione alla newsletter

I agree with the Privacy e Termini di Utilizzo
Con l'iscrizione riceverai news sul mondo dell'IT e Big Data.
Back to Top