BI self-service con Tableau
Contenuto
- Introduzione
- Fattori chiave per la Business Intelligence Self-Service
- Confronto degli strumenti
- Obblighi di segnalazione
- Gestione e governance dei dati
- Evangelizzare Tableau a Pasarpolis
Introduzione
Nel nostro blog precedente, abbiamo discusso il nostro approccio all’analisi dei dati e il nostro obiettivo di essere un’organizzazione basata sui dati. In questo post, approfondiremo come stiamo consentendo ai nostri utenti di essere più guidati dai dati e quindi efficienti.
Infrastruttura di analisi dei dati corrente
PasarPolis sfrutta la potenza di Google BigQuery come piattaforma di data warehousing insieme ad Airflow per l’orchestrazione dei dati. Abbiamo utilizzato una combinazione di Google Data Studio, Metabase e Microsoft Excel per l’analisi e la visualizzazione dei dati. Abbiamo utilizzato tecniche di ottimizzazione del database come il partizionamento, il clustering degli indici e lo sharding per il recupero rapido dei dati. I nostri utenti finali devono essere in grado di interrogare facilmente i dati e ottenere rapidamente l’output
Fattori chiave per la Business Intelligence Self-Service
Il tasso di crescita mensile dei nostri dati è del 30%. Ciò ha aumentato la necessità di analisi rapide per ottenere risultati all’interno di ogni team. Il processo di ottenimento di report specifici include:
- Comprendere i requisiti aziendali
- Discutere le metriche con le parti interessate
- Aggiornare i report quando viene implementata una nuova funzionalità
- Consegna di report a intervalli pianificati
Ci siamo resi conto dei fattori chiave necessari per guidare la business intelligence self-service –
- Esplorazione e scoperta dei dati
- Automazione dei dati
- Visualizzazione dei dati
Esplorazione e scoperta dei dati
Esplorare e ricavare informazioni dai nostri dati ci aiuta a prendere decisioni rapide e informate. Ci stiamo sforzando di rendere questo processo di esplorazione dei dati facile per i nostri decisori.
Tableau ha consentito ai nostri utenti di utilizzare “Analisi investigativa”. Aiuta perché:
- È intuitivo da usare, quindi manager e analisti possono trascinare, rilasciare campi dati in dimensioni e misure.
- Convertite le quote in misure con il clic di un pulsante.
- Le funzioni integrate consentono agli utenti di estrarre dati da dati semi-strutturati come i campi JSON.
- Supporta un gran numero di funzioni / calcoli utente personalizzati.
- È più veloce per la rotazione dei dati e la visualizzazione.
- L’elaborazione dei dati viene gestita in Big Query, quindi gli elementi visivi vengono visualizzati più velocemente in Tableau.
- Automazione dei dati
La nostra organizzazione dipende dagli ultimi dati generati. Le informazioni che ne derivano ci aiutano a ottimizzare e migliorare i nostri prodotti. I dati vengono recuperati utilizzando una connessione attiva o un archivio aggiornato in batch.
Sono stati esplorati i seguenti metodi per recuperare e manipolare i dati:
- Connessioni in tempo reale: le connessioni in tempo reale sono configurate per le tabelle con il maggior volume di dati. L’esecuzione delle query viene gestita in BigQuery.
- Connessioni di estrazione: le estrazioni sono fonti di dati che non richiedono connessioni in tempo reale, ad esempio Google Analytics nel nostro caso d’uso. Aggiorniamo i dati in modo incrementale o completo.
- Abbonamenti: i responsabili delle decisioni si iscrivono a visualizzazioni di dati selezionate. Questi vengono inviati su base giornaliera, settimanale o mensile. Collegamento
- Data Blending: abbiamo provato il data blending e l’abbiamo trovato piuttosto lento e non rispondente su Tableau Explorer. Forse a causa del volume di dati nel set di dati BigQuery sottostante che ha reso un compito molto pesante aggregare ed eseguire un join sinistro. Comparativamente, SQL personalizzato con join ha funzionato meglio poiché il calcolo viene eseguito su BigQuery.
Abbiamo utilizzato Tableau Desktop per creare origini dati. Tableau ha un’interfaccia utente semplice e questo ci aiuta a creare connessioni e pianificazioni con il minimo sforzo. (Leggi di più qui)
Visualizzazione dei dati
Utilizziamo la visualizzazione dei dati ogni giorno, per rivedere cose come: le polizze vendute in mesi, la quantità di Gross Written Premium nel tempo e le statistiche dettagliate sui prodotti dei partner.
Utilizziamo Tableau per creare:
Dashboard di Tableau
Configuriamo dashboard specifici per i partner. Abbiamo sfruttato Tableau presentando le informazioni sotto forma di storie, con più viste, filtri e in un’ampia gamma di layout e formati.
Visualizzazioni avanzate
Ad esempio:
- Istogramma
- Diagramma di Gantt
- Grafico puntato
- Grafico del movimento
- Mappa ad albero
- Boxplot
- Mappe
Mappe
Sfruttiamo la visualizzazione delle mappe per le politiche di viaggio per aiutarci a identificare i percorsi caldi e freddi. Questo ci aiuta ulteriormente a visualizzare il rischio che si traduce in prezzi di polizza.
Linee di tendenza e analisi predittiva
Uno dei modi in cui lo usiamo è prevedere quanti dati verranno generati e calcolati per prevedere il nostro costo GCP.
Metabase fornisce i seguenti mezzi di visualizzazione dei dati. Le scelte disponibili sono poche e limitate.
Il modo migliore per mostrare la flessibilità di come le visualizzazioni possono essere presentate è visitare la Galleria pubblica di Tableau.
Tools Comparison
Abbiamo confrontato Excel, Metabase, Google Data Studio e Tableau basati su tre fattori principali precedentemente menzioaati e siamo arrivati alla conclusione che Tableau avesse senso per una varietà di nostre casistiche di utilizzo.
Conclusione
La figura sopra è una rappresentazione approssimativa di un rapporto dettagliato che ha dati sulle politiche vendute ogni giorno. Non è possibile prendere decisioni aziendali rapide basate su questo. Uno ha bisogno di un sistema potente per elaborare i dati se scaricati localmente (altamente scoraggiato). Excel ritardi o non riesce a caricare i dati quando ci sono più di 2 milioni di punti di dati. È difficile creare visualizzazioni e ricavare significato quando i dati sono presentati nel formato mostrato sopra.
Nelle occasioni che richiedono il download dei dati teniamo presente quanto segue
- Il numero di punti dati è 10.000 per l’uso in Excel.
- Le caratteristiche di analisi dei dati fornite da Metabase sono limitanti.
- I dati più recenti non sono necessari per l’analisi.
Queste condizioni inserite nella figura di confronto degli strumenti sono le ragioni per cui utilizziamo Metabase ed Excel come strumenti di reporting dettagliati.
Per gli stessi dati mostrati in precedenza nel formato tabellare, abbiamo creato un dashboard dinamico ospitato in Tableau Server. Questo dashboard fornisce informazioni più significative e può essere condiviso più velocemente. [Nota – abbiamo usato dati fittizi per lo scopo rappresentativo]
Utilizziamo Tableau come strumento decisionale, non come strumento di reporting dettagliato.
Obblighi di segnalazione
Questo è il flusso di dati corrente in PasarPolis per l’analisi.
I nostri requisiti di reporting si rivolgono principalmente ai seguenti utenti –
- Product Management
- Partner Management
- Gestione delle operazioni / Gestione finanziaria (MIS Reporting)
Product Management
Il team di data science lavora con i product manager per analizzare quanto segue –
- Studia l’interazione utente-applicazione
- Ottimizzare le notifiche inviate
- Analizzare il traffico del sito web e gli imbuti utente
- Esegui la segmentazione e il targeting dei clienti
- Test A/B – Controlla le prestazioni dei modelli di apprendimento automatico
- Analizza i riepiloghi delle prestazioni delle applicazioni
Partner Management
Il team di partnership collabora con i nostri Partner. I requisiti di reporting per il Partner Management sono:
- Metriche globali delle prestazioni dei partner su tutti i prodotti per analisi ad hoc
- Metrica di crescita del prodotto su base settimanale, mensile e trimestrale
- Email pianificate delle stesse metriche di report e dashboard
Gestione delle operazioni / Gestione finanziaria
Esaminano i processi per le assicurazioni, reclami e regolamento. Alcuni esempi dei loro obblighi di segnalazione sono –
- Calcolare il rapporto di reclamo, premio totale
- I calcoli sono entro un periodo di tempo – giornaliero, settimanale, mensile, annuale
- Imbuti del processo di liquidazione dei sinistri
- Commissioni ai nostri partner commerciali
Il nostro metodo attuale prevede questi passaggi:
- Analisi dei requisiti con il manager
- Analizzare la struttura di report e visualizzazione
- Discutere le fonti di dati per il report
- Recupero dati tramite query SQL
- Consegnare il rapporto e confermare con il gestore
Quando c’è un aggiornamento in un prodotto, vengono ripetuti i passaggi 1, 3, 4 e 5. Ciò comporta una comunicazione avanti e indietro aggiuntiva.
Per risolvere questo problema, abbiamo creato online tabelle riassuntive in Tableau che possono essere esplorate a livelli giornalieri, settimanali e mensili. Questo ha permesso ai manager di usarli come fonti di dati. Trascinano e rilasciano i campi apt per ottenere le informazioni e le immagini di cui hanno bisogno con poca o nessuna interazione con il team di analisi, riducendo così la latenza nel processo decisionale.
Data Management
La governance e la gestione dei dati comprendono:
- Creare e imporre policy per una gestione efficace dei dati
- Sviluppare tecniche di gestione per la raccolta dei dati di qualità per garantire l’adeguatezza, l’accuratezza e l’integrità dei dati
- Elaborare e implementare procedure efficienti e sicure per la gestione dei dati
Tableau ha una guida su come iniziare con la gestione dei dati e la governance. Abbiamo preso da lì e raffinato il nostro approccio come ci siamo mossi in avanti.
Tableau Sites
Tableau Sites è una raccolta di utenti, fonti di dati, cartelle di lavoro e contenuti, che vengono bloccati da tutti gli altri gruppi di utenti che accedono alla stessa istanza di Tableau Server. Utilizzando questa funzione, ad ogni squadra viene assegnato un sito.
Ogni dipendente ha un account Google. Abbiamo abilitato Google auth per l’autenticazione e l’autorizzazione degli accessi a Tableau. Ogni membro è associato a un sito, dove abbiamo concesso necessarie autorizzazioni Google BigQuery. Queste autorizzazioni includono le seguenti autorizzazioni IAM su Google console –
- BigQuery User
- BigQuery Data Viewer
Editoria
Abbiamo creato Tableau Explorer come strumento di business intelligence self-service, consentendo così agli utenti di eseguire analisi da qualsiasi luogo. Manteniamo un foglio di calcolo condiviso dal vivo per gestire fonti di dati e cartelle di lavoro. Questo foglio di calcolo contiene il nome dell’origine dati/della cartella di lavoro, del creatore e del richiedente.
La guida Tableau Data Management ha ispirato l’insieme di regole e linee guida che utilizziamo. Queste includono:
I dati possono essere pubblicati in Tableau Server nei seguenti modi:
- Pubblicato separatamente (Live Connection/Estratti)
- Incorporato nelle cartelle di lavoro
Published Separately (Live Connection/Extracts)
- Il nostro obiettivo è ridurre al minimo la proliferazione delle fonti di dati e aiutare le persone a trovare i dati giusti per il lavoro che svolgono
- Quando un’origine dati viene condivisa, diventa disponibile per tutti gli utenti di Tableau su quel sito
- Quando viene aggiunta e aggiornata un’origine dati, ci assicuriamo che le cartelle di lavoro collegate vengano aggiornate di conseguenza. Si noti, che si tratta di un’attività molto ingombrante.
- Quando usiamo estratti, viene impostato un programma di aggiornamento. I nostri utenti impostano una pianificazione di aggiornamento per un estratto e tutte le cartelle di lavoro che si connettono a tale estratto mostrano i dati aggiornati per tale pianificazione.
Incorporato nelle cartelle di lavoro
- Abbiamo creato fonti di dati incorporate per le cartelle di lavoro che richiedono dati che rispondono a una domanda molto specifica
- I dati incorporati sono disponibili solo all’interno di tale cartella di lavoro; non è disponibile per altri utenti di Tableau. Se la persona non ha accesso alla cartella di lavoro specifica, non può accedere all’origine dati.
- Pubblichiamo una fonte di dati solo quando più cartelle di lavoro la utilizzano.
- Usiamo estratti incorporati che non vengono aggiornati per mostrare le istantanee in tempo.
Mantenere aggiornati gli estratti
Quando pubblichiamo un’origine dati come estratto, impostiamo una pianificazione per aggiornare i dati. Il modo in cui la pianificazione si aggiorna dipende dal tipo di origine dati e dal fatto che stiamo pubblicando su Tableau Server o incorporandola come origine dati in una cartella di lavoro.
Per ulteriori informazioni, consultare i seguenti argomenti:
- Keep Data Fresh on Tableau Online
- Keep Data Fresh in Workbooks
Impostiamo la seguente convenzione di denominazione e i requisiti di metadati per fonte di dati e cartella di lavoro pubblicati.
Data Source
Nomenclatura <AGG_DETAIL>_<TASKNAME>_<TEAMNAME>_dataSource
Descrizione
-
- Team name
- Task name
- Request Date
- Requestor
- Author
- Aggregation detail: Daily/Weekly/Monthly/Quarterly/Yearly
- Connection Type: Live/Extracts
- Tables used/Base Query
Workbook
Nomenclature
<TASKNAME>_ <TEAMNAME>_viz
Description
- Team name
- Task name
- Request Date
- Requestor
- Author
- Connection Type: Live/Extracts
- Tables used/Base Query
Evangelizzare Tableau in Pasarpolis
Abbiamo adottato le seguenti misure per rendere Tableau accessibile ai nostri utenti:
- Inviate email personalizzate a ogni team manager, spiegando l’utilità della piattaforma Tableau per il loro caso d’uso
- Id di accesso creati e condivisi con coloro che hanno espresso interesse
- Impostare sessioni team-wise che presentano una traduzione sensibile al contesto dei dati alle informazioni utilizzando l’interfaccia utente di Explorer
- Spiega quando usare Tableau (crea visualizzazioni di dati) e quando non usare Tableau (non creare report dettagliati con 16 colonne e milioni di righe di dati alfanumerici).
- Fornito a ogni squadra una serie di tabelle riassuntive (a grana giornaliera) e tabelle dettagliate come fonti di dati che abbiamo trovato più comunemente richiesti
- Continuiamo a fare sessioni 1-1, creazione di fonti di dati e cartelle di lavoro personalizzate su Tableau, per tutti i membri dell’organizzazione
- Dati i problemi che abbiamo affrontato con Metabase per alcuni tipi di report/ dashboard e immagini, abbiamo trasferito tutti a Tableau
Uno dei principali ostacoli che abbiamo dovuto affrontare è stato quello di far capire a tutti che Tableau non è adatto per creare report dettagliati come tabelle di testo con milioni di record. Abbiamo creato report con filtri specifici per record e campi che i nostri utenti desideravano visualizzare. Inoltre, abbiamo dimostrato come interpretare i grafici invece di guardare i dati grezzi e quindi utilizzare uno strumento di 3rd party come Excel per ricavare informazioni dettagliate usando qualcosa come una tabella pivot. Quando riceviamo una richiesta di condivisione di dati quasi grezzi con un utente (ed è giustificata), scegliamo tra la pubblicazione di una nuova domanda Metabase e un report automatizzato / pianificato su Airflow, entrambi i quali hanno la capacità di inviare allegati Excel. In situazioni che non richiedono dati dettagliati come tabella di testo, abbiamo creato grafici, dashboard e storie in Tableau con e-mail automatizzate inviate quotidianamente, settimanalmente e mensilmente utilizzando la funzione di sottoscrizione di Tableau.
Articolo di Shourya Sengupta
Self Service BI using Tableau. Contents | by Shourya Sengupta | Pasarpolis Product + Tech | Medium