Tutorial di Tableau per principianti

Una guida completa per principianti alla visualizzazione dei dati con Tableau

Foto di Daniel Korpai su Unsplash

Il più grande valore di un’immagine è quando ci costringe a notare ciò che non ci saremmo mai aspettati di vedere.

Cos'è Tableau?

Tableau è un potente strumento di visualizzazione dei dati utilizzato nel settore della Business Intelligence. Aiuta a semplificare i dati grezzi in un formato facilmente comprensibile.

È molto più facile suddividere dati complessi con Tableau e generare informazioni preziose. Queste informazioni possono quindi essere utilizzate dalle aziende per prendere decisioni basate sui dati.

Perché Tableau?

Con un oceano di strumenti di analisi e visualizzazione dei dati là fuori, perché scegliere Tableau?

  1. Tableau ti consente di creare rapidamente visualizzazioni potenti. Gli stessi grafici che richiederebbero decine di minuti per essere creati in Excel, puoi farlo in pochi secondi.
  2. Tableau utilizza le best practice nella scienza della visualizzazione. I tuoi dati verranno visualizzati in modo che sia facile da capire da un profano.
  3. Puoi creare dashboard interattive in Tableau, su cui chiunque può fare clic e giocare per ottenere informazioni dettagliate dai dati.
  4. Uno degli aspetti più interessanti di Tableau è che non è necessario sapere come codificare per usarlo. Non è necessario avere alcun tipo di background tecnico o esperienza di programmazione per imparare Tableau.
Foto di Adeolu Eletu su Unsplash

Per questi motivi, Tableau ha catturato l’interesse di persone provenienti da diversi settori, come analisti aziendali e ricercatori.

Non sei ancora convinto?

Lascia che ti mostri un esempio di quanto possa essere potente la visualizzazione dei dati in Tableau.

Qualche settimana fa, il mio professore universitario ci ha dato un incarico. Abbiamo dovuto eseguire più modelli di machine learning sullo stesso set di dati e confrontare le prestazioni tra tutti.

Per illustrare questo confronto, ho deciso di usare un paio di librerie in Python:

Questi grafici andavano bene.

Tuttavia, avevo ancora un po ‘di tempo libero a disposizione prima della scadenza dell’incarico, quindi ho deciso di giocare con i dati e provare alcuni altri strumenti di visualizzazione.

 

In un paio di minuti, ecco alcuni grafici che ho creato in Tableau:

 

Questi grafici andavano bene.

Tuttavia, avevo ancora un po ‘di tempo libero a disposizione prima della scadenza dell’incarico, quindi ho deciso di giocare con i dati e provare alcuni altri strumenti di visualizzazione.

I primi due grafici che ho creato in Python richiedevano circa 15 righe di codice per essere generati.

Ho creato grafici simili in Tableau in circa 5-10 minuti.

Se sei una persona con poca o nessuna esperienza di codifica, Tableau è lo strumento di analisi dei dati perfetto per te.

È possibile creare visualizzazioni semplici da un insieme complesso di dati e presentarle ad altre persone in un formato comprensibile.

Ora ti mostrerò le nozioni di base di Tableau: come puoi trovare le tendenze nei dati, rispondere alle domande sui dati e raccontare storie con le tue visualizzazioni.

Non è richiesta alcuna esperienza precedente nell’analisi o nella codifica dei dati per seguire i passaggi descritti in questa guida.

Questo tutorial ti guiderà attraverso le basi della visualizzazione dei dati, insieme ad alcune semplici analisi statistiche, prima di iniziare a utilizzare Tableau.

È molto importante tenere a mente queste tecniche prima di imparare qualsiasi strumento di analisi per visualizzare i dati. È possibile applicare questi suggerimenti a qualsiasi scenario di vita reale o set di dati con cui si sta lavorando.

Quindi prendi una tazza di caffè e prendi carta e penna per scrivere appunti mentre segui!

Elencherò anche alcune risorse di apprendimento aggiuntive alla fine da esplorare se vuoi scavare più a fondo nel campo dell’analisi dei dati.

Sviluppa una passione per l’apprendimento. Se lo fai, non smetterai mai di crescere.

Passaggio 1: i dati

Il set di dati che useremo in questo tutorial è il Titanic Dataset di Kaggle. Scaricare il file train.csv e salvarlo come cartella di lavoro di Excel.

Salva treno.csv come cartella di lavoro di Excel
I dati

Ci sono 12 variabili presenti in questo set di dati. Ecco una panoramica:

  1. PassengerId: ID univoco di ogni passeggero
  2. Pclass: La classe di passeggeri; 1°, 2° e 3°. La prima era la classe superiore e la terza era la classe inferiore.
  3. Nome
  4. Sesso
  5. Età
  6. SibSp: Numero di fratelli e/o coniugi a bordo
  7. Arrostire: Numero di genitori e/o bambini a bordo
  8. Biglietto: Numero del biglietto
  9. Tariffa
  10. Cabina
  11. Intrapreso: Porto di imbarco
  12. Sopravvissuto: Indipendentemente dal fatto che un passeggero sia sopravvissuto o meno al Titanic. Un valore di 1 significa che il passeggero è sopravvissuto e un valore di 0 significa che non lo ha fatto.

La questione dei dati

Qualsiasi data scientist ti dirà che la parte più importante della conduzione dell’analisi dei dati è avere in mente una domanda sui dati.

A quale domanda vuoi rispondere con questi dati? Quale problema stai cercando di risolvere? Ci sono tendenze o relazioni che stai cercando?

Per questa analisi dei dati, ho creato un elenco di semplici domande a cui possiamo rispondere visualizzando il set di dati del Titanic:

  1. Quante persone sono sopravvissute al Titanic?
  2. Quale genere aveva maggiori probabilità di sopravvivere al Titanic?
  3. La classe in cui si trovava il passeggero ha avuto qualche impatto sulla sua sopravvivenza?
  4. I più giovani avevano maggiori probabilità di sopravvivere al Titanic?
  5. I passeggeri che pagavano tariffe più alte avevano maggiori probabilità di sopravvivere al Titanic?

Prima di condurre l’analisi dei dati, è importante comprendere i tipi di variabili presenti nel set di dati.

Quando usi Tableau, devi conoscere la differenza tra variabili numeriche (una misura) e variabili categoriche. Dovrai anche conoscere la differenza tra variabili discrete e continue e come visualizzarle.

Lascia che lo analizzi per te.

Variabili numeriche:

Come suggerisce il nome, le variabili numeriche sono variabili che possono essere misurate. Sono anche conosciute come variabili quantitative e hanno la forma di un valore numerico.

Una variabile numerica può essere di due tipi: discreta e continua.

Variabili discrete:

Il valore di una variabile discreta si ottiene dal conteggio.

Ad esempio, Il numero di caramelle in un barattolo è una variabile discreta.

Variabili continue:

Il valore di una variabile continua si ottiene misurando. Qualsiasi quantità misurabile come il tempo, la distanza e la temperatura è una variabile continua.

Ad esempio, L’altezza degli studenti in una classe.

Variabili categoriche:

Una variabile categorica rappresenta il tipo di dati che possono essere suddivisi in gruppi.

Ad esempio, Razza, sesso, fascia d’età

Ora che hai capito la differenza tra i tipi di variabili, possiamo passare al passaggio successivo.

Passaggio 2: scarica e installa Tableau

Fai clic su questo link per scaricare e installare Tableau Public sul tuo computer. Tableau Public è un servizio gratuito che consente a chiunque di creare visualizzazioni interattive.

Si tratta di una versione gratuita del software Tableau che consente di utilizzare la maggior parte delle funzioni del software. È possibile connettersi a file CSV, fogli di calcolo Excel e documenti di testo.

Tuttavia, non sarà possibile salvare il lavoro localmente sul computer. Dovrai salvarlo e accedervi da Tableau Public.

Passaggio 3: Connettere l'origine dati

Al termine dell’installazione, apri Tableau Public. Vedrai un riquadro simile a questo sul lato sinistro della finestra.

Per connetterti ai nostri dati, clicca su Microsoft Excel. Quindi, trova il foglio di calcolo Excel che abbiamo appena creato e aprilo.

Vedrai una finestra simile a questa:

I dati sono stati caricati correttamente in Tableau.

Passaggio 4: analisi dei dati

Per iniziare ad analizzare i dati, fare clic su Foglio 1 nell’angolo in basso a sinistra dello schermo.

Vedrai apparire la seguente schermata:

Prestare particolare attenzione al riquadro dei dati (sul lato sinistro dello schermo). Vedrai i diversi nomi delle variabili.

Ci sono due cose che devi sapere sul modo in cui Tableau classifica le variabili:

Tipo di dati

Innanzitutto, Tableau assegna a ogni variabile un tipo di dati: String, DateTime, Decimal, ecc.

È importante dare un’occhiata a ciascuna variabile e assicurarsi che il tipo di dati sia corretto poiché è possibile che Tableau non lo sbagli ( Ad esempio, Tableau potrebbe classificare erroneamente un oggetto Datetime come String).

In questo caso, tuttavia, Tableau sembra aver assegnato il tipo di dati corretto a ciascuna variabile. Non abbiamo bisogno di apportare modifiche qui.

Misure e dimensioni

Tableau classifica anche le variabili in misure e dimensioni.

Le misure sono tipi di variabili che possono essere aggregate o utilizzate per operazioni matematiche.

Le dimensioni sono campi che non possono essere aggregati.

Puoi pensare alle misure come variabili continue e alle dimensioni come variabili discrete (fai riferimento al primo passaggio del tutorial se non ricordi la differenza).

Diamo di nuovo un’occhiata al riquadro dei dati:

Le variabili nella metà superiore del pannello, come “Cabina” e “Imbarcato” sono classificate come dimensioni.

Le variabili nella metà inferiore, come “Età” e “Tariffa” sono classificate come misure.

È possibile che Tableau assegni erroneamente una variabile come dimensione o misura. In questo caso, ci sono due casi in cui Tableau lo ha fatto. Dovremo ridefinire queste variabili.

Daremo di nuovo un’occhiata al set di dati per identificare le variabili definite in modo errato.

Le variabili Pclass Survived sono state classificate come misure o variabili continue.

Tuttavia, queste variabili sono discrete. Sebbene siano numerici, rappresentano una categoria e non una sorta di quantità.

Ad esempio, dai un’occhiata alla variabile “Sopravvissuto”. Un valore di 1 indica che una persona è sopravvissuta al Titanic e un valore di 0 indica che non l’ha fatto. Questa è una variabile categorica.

Dobbiamo modificare queste variabili definite in modo errato prima di iniziare a visualizzare i dati.

Per fare ciò, devi solo trascinare e rilasciare. Fare clic sulla variabile definita in modo errato e trascinarla verso l’alto nella sezione delle dimensioni del riquadro.

Ecco come dovrebbe apparire quando hai finito:

Ci sono solo quattro variabili nella sezione misura e tutto il resto è classificato come una dimensione.

Ora possiamo iniziare con il processo di visualizzazione.

 

 

Passaggio 5: Visualizzazione dei dati

Istogrammi

Inizieremo visualizzando una variabile. Quando si visualizza la diffusione di una variabile numerica in un set di dati, viene utilizzato un istogramma.

  1. In primo luogo, visualizzeremo la distribuzione della variabile “Età”.

Per fare ciò, dovremo prima creare contenitori o intervalli della fascia di età:

Scegli una dimensione del cestino pari a 10 e fai clic su “OK”.

La variabile ‘Età (bin)’ dovrebbe apparire nel riquadro dei dati:

Per visualizzare la fascia di età appena creata, trascina la variabile “Età (bin)” nel riquadro Colonne nella parte superiore dello schermo. Quindi, trascina la variabile ‘train(Count)’ nel riquadro Righe:

Dopo averlo fatto, vedrai un istogramma come quello qui sotto:

Distribuzione per età dei passeggeri del Titanic

Questa è una buona e chiara visualizzazione della distribuzione per età nel nostro set di dati. Tuttavia, può essere migliorato.

Se guardi da vicino, noterai il valore ‘Null’ sull’asse X.

Per rimuovere i valori null:

  • Fai clic sul menu a discesa vicino a “Età (cestino)” e fai clic su “Mostra filtro”.

Sul lato destro dello schermo dovrebbe essere visualizzato quanto segue:

Deseleziona il segno di spunta accanto a “Null” e non vedrai più valori null nell’istogramma:

Distribuzione per età dei passeggeri del Titanic

Se si desidera modificare i colori dei contenitori, trascinare la variabile “Età (raccoglitori)” sul pulsante Colore nella scheda Contrassegni:

Quindi, fai clic su Colore -> Modifica colori per scegliere una tavolozza di colori:

Seleziona un colore che ti piace, fai clic su Assegna tavolozza e fai clic su “OK”. Ora avrai un istogramma con i colori che hai scelto:

  1. Allo stesso modo, ora possiamo visualizzare la variabile “Tariffa”.

Ripeti l’intero processo per creare un istogramma per le tariffe dei passeggeri. Questa volta, usa una dimensione del cestino di 30.

Il tuo grafico dovrebbe essere simile al seguente:

 

Conteggio Piazzole

Simile agli istogrammi che abbiamo creato per le variabili ‘Age’ e ‘Fare’, possiamo creare grafici di conteggio per variabili categoriche.

  • Innanzitutto, visualizzeremo i conteggi della variabile “Sopravvissuto”.

Nota: rimuovi la variabile “Età (cestino)” dalla sezione Colonne e dalla scheda dei segni. Dovrai farlo ogni volta che desideri creare una nuova visualizzazione.

Basta trascinare la variabile ‘Sopravvissuto’ nella sezione Colonne e la variabile ‘train(Count)’ nella sezione Righe.

Quindi, trascina la variabile “Sopravvissuto” sul pulsante Colore nella scheda Contrassegni e scegli una tavolozza di colori:

Ecco come apparirà il grafico:

È possibile fare lo stesso per visualizzare le variabili categoriche rimanenti nel set di dati.

  • Pclass ·

Segui gli stessi passaggi di prima e dovresti ottenere una visualizzazione simile alla seguente:

 

Grafico a barre

I grafici a barre sono ottimi per visualizzare la relazione tra più variabili.

Le passeggere avevano maggiori probabilità di sopravvivere al Titanic rispetto ai passeggeri maschi?

Per rispondere a questa domanda, due variabili : “Sopravvissuto” e “Sesso” devono essere visualizzate in un grafico di conteggio. In base al tipo di informazioni che si desidera ottenere, è possibile colorarle in base a una delle due variabili:

La trama risultante sarà qualcosa del genere:

Survived and Sex

Semplicemente guardando questo grafico, possiamo trovare una correlazione: i passeggeri di sesso femminile sembravano più propensi a sopravvivere al Titanic rispetto ai passeggeri di sesso maschile.

Scheda dei marchi di Tableau

Prima di passare alla visualizzazione successiva, devi conoscere una caratteristica importante di Tableau: la scheda dei segni.

Scheda Dei Marchi

Fai clic sul pulsante “Mostrami” nell’angolo in alto a destra della pagina e puoi trovare la scheda dei segni. Qui puoi vedere diversi tipi di grafici.

Tableau ti consente di giocare con diversi tipi di grafici per visualizzare gli stessi dati: ci sono grafici a bolle, mappe ad albero, box plot, ecc.

Puoi dare un’occhiata ad alcuni di questi e dedicare un po ‘di tempo alla creazione di diversi grafici.

Tuttavia, fai attenzione quando li usi per visualizzare i tuoi dati. Alcuni di questi grafici possono sembrare carini ma non sono necessariamente le migliori pratiche di visualizzazione.

L’uso di grafici troppo sofisticati può rendere difficile per gli altri leggere e interpretare, quindi procedi con cautela.

 

Grafico in pila

Un modo alternativo per visualizzare le variabili “Sesso” e “Sopravvissuto” sopra è utilizzare un grafico in pila.

Selezionare l’opzione del grafico in pila dalla scheda Contrassegni

Fai clic sulla scheda che assomiglia a un grafico a barre impilato.

Dovresti vedere un grafico simile a questo. Le barre per la variabile ‘Sesso’ non sono più visualizzate fianco a fianco. Invece, sono impilati uno sopra l’altro.

Grafico in pila — Sopravvissuti e sesso

Altre visualizzazioni

Applicando ciò che abbiamo imparato sopra, possiamo creare visualizzazioni per trovare risposte alle seguenti domande sui dati:

Nota: suggerisco di scrivere le domande. Quindi, crea la tua visualizzazione per provare a rispondere tu stesso.

La classe di passeggeri in cui si trovava una persona ha avuto qualche impatto sul fatto che siano sopravvissuti al Titanic?

 

Sembra che i passeggeri della terza classe avessero molte meno probabilità di sopravvivere rispetto ai passeggeri di qualsiasi altra classe.

Il porto da cui il passeggero si è imbarcato ha avuto qualche impatto sulla sua sopravvivenza?

Non sembra esserci alcuna relazione apparente tra le variabili “Imbarcato” e “Sopravvissuto”.

I passeggeri più giovani avevano maggiori probabilità di sopravvivere al Titanic?

Nota: per rispondere a questa domanda, puoi utilizzare la variabile “Età” o “Età (Cestino)”.

Età e sopravvissuti
Età e sopravvissuti

La distribuzione per età dei passeggeri sopravvissuti al Titanic è simile alla distribuzione per età dei passeggeri che non lo hanno fatto. Sembra esserci poca o nessuna correlazione tra età e sopravvivenza.

I passeggeri che pagavano tariffe più elevate avevano maggiori probabilità di sopravvivere al Titanic?

Nota: ho cambiato la dimensione del cestino in 25 per ottenere un’immagine più chiara.

Si può osservare che i passeggeri che hanno pagato prezzi più alti ($ 50 e oltre) hanno tassi di sopravvivenza più elevati rispetto ai passeggeri che hanno acquistato biglietti più economici.

Visualizzazione di più variabili

Tableau è un ottimo strumento da utilizzare quando è necessario visualizzare la relazione tra più di due variabili contemporaneamente perché ci sono così tanti modi per farlo.

Per mostrarti un esempio, visualizzerò la relazione tra le variabili “Età”, “Sesso” e “Sopravvissuto”.

Sopravvissuti e fascia d’età con sesso

Ci sono molti modi diversi per farlo, a seconda della variabile che vuoi distinguere.

Puoi riposizionare il grafico e provare a colorare diverse variabili e vedere cosa risponde meglio alla tua domanda sui dati.

A volte, visualizzare le stesse variabili in molti modi diversi può darti una prospettiva completamente nuova.

Ora visualizzerò alcune altre variabili per trovare la relazione tra loro, e dovresti provarle da solo.

‘Fare’, ‘Sesso’ e ‘Sopravvissuto’

‘Fare’, ‘Pclass’, ‘Sopravvissuto’

‘Età’, ‘Pclass’, ‘Sopravvissuto’

 

6. Contrassegni, descrizioni comandi e annotazioni

L’uso di indicatori, descrizioni comandi e annotazioni può facilitare la lettura del grafico da parte delle persone.

Tuttavia, dovresti usarli saggiamente per evitare di ingombrare il tuo grafico con troppe informazioni.

Descrizioni comandi

Le descrizioni comandi sono i dettagli che vengono visualizzati quando si passa il puntatore del mouse sulla visualizzazione:

Conteggio sopravvissuto — Tooltip

È possibile scegliere di aggiungere informazioni alla descrizione comando, senza aggiungerle alla visualizzazione.

Ricreare il grafico del conteggio dei sopravvissuti sopra. Quindi, tutto ciò che devi fare è trascinare la variabile che desideri aggiungere al pulsante Descrizione comando nella scheda Contrassegni:

In questo modo, ogni volta che qualcuno passa un puntatore sul tuo grafico, sarà in grado di vedere queste informazioni aggiuntive:

Conteggio di sopravvivenza con Tooltip

Come puoi vedere nel grafico sopra, il tooltip contiene informazioni sul sesso del passeggero, che non vengono visualizzate nel grafico.

Nota: non consiglierei di utilizzare le descrizioni comandi in questo modo. Quando si visualizzano variabili categoriche, è sempre meglio utilizzare una tonalità diversa o una colonna separata. L’ho creato solo per mostrarti come puoi usare le descrizioni comandi in futuro.

Annotazioni

È possibile visualizzare le informazioni visualizzate nella descrizione comando come annotazione sul grafico.

In questo modo, puoi richiamare un segno o un punto specifico sul tuo grafico e convincere i lettori a vederlo facilmente.

Ciò è particolarmente utile quando si visualizzano i dati sulla posizione in una mappa perché è possibile annotare e attirare l’attenzione su una particolare area.

Ecco come annotare il grafico:

  1. Fare clic con il pulsante destro del mouse sull’istogramma e fare clic su Annota -> Mark

  1. Apparirà una schermata come questa. Puoi scegliere di rimuovere i segni che non desideri e fare clic su “OK”.

Ora vedrai l’annotazione apparire in questo modo:

E… Abbiamo finito!

Spero che questo tutorial ti abbia aiutato a iniziare con l’analisi e la visualizzazione dei dati di base con Tableau.

Naturalmente, c’è molto di più nella visualizzazione dei dati in Tableau e abbiamo appena scalfito la superficie.

 

Articolo di Natassha Selvaraj

https://medium.datadriveninvestor.com/tableau-tutorial-for-beginners-43483adf719

 

 

 

 

 

 

 

 

Share:

Contenuti
Torna in alto