Un altro sguardo all’analisi esplorativa dei dati con la funzionalità Idee di Excel

Excel sostituirà i data scientist? Excel eseguirà l'apprendimento automatico per noi?

TLDR: Se non sei un data scientist, anche tu puoi eseguire analisi esplorative dei dati. E tutti i data scientist che in precedenza hanno trovato la distribuzione degli strumenti di analisi dei dati esplorativi automatizzati di Excel risultati deludenti: ora dovresti trovare il tempo di dare un’altra occhiata agli strumenti avanzati dell’infrastruttura cloud del software. Per fare bene l’analisi esplorativa, un data scientist ha bisogno di tempo. Il tempo dedicato all’analisi esplorativa dei dati è generalmente ben speso. Questo articolo aiuterà i data scientist, gli analisti dei dati e altri professionisti dei dati a ridurre il tempo dedicato all’EDA (e a ridurre la necessità di altre tecniche EDA).

 

Articolo di Adam Ross Nelson

Another Look at Exploratory Data Analysis with Excel’s Ideas Feature | by Adam Ross Nelson | Towards Data Science

Introduzione

Non solo per i data scientist

Questo articolo è un aggiornamento in ritardo a un articolo precedente che mostra la funzione “Idee” di Microsoft Excel. Questa nuova funzione è ora chiamata senza fantasia “AnalyzeData”. La funzione è cambiata più del suo nome. Nella sua forma più semplice, aiuta con l’analisi esplorativa dei dati producendo rapidamente una dashboard di visualizzazione dei dati.

L’analisi esplorativa dei dati (EDA) è un argomento importante nella scienza dei dati e nell’apprendimento automatico. Gli strumenti EDA automatizzati trovano modelli per te. Dopo la mia recente revisione di questo strumento aggiornato, sono convinto che anche i data scientist più esperti saranno impressionati qui. Se non hai ancora esplorato Excel come leader nella gamma di strumenti EDA, sei in ritardo per farlo. Anche se sei un professionista della visualizzazione dei dati, rimarrai impressionato.

Per il Data Scientist

Le persone che lavorano con i dati di ricercatori, analisti, professionisti della business intelligence e altro ancora dedicano molto tempo alle attività esplorative di analisi dei dati. Secondo un articolo di Harvard Business Review, i data scientist trascorrono l’80% del loro tempo a trovare, pulire e organizzare i dati.

Oltre ad essere utile per chiunque si senta a corto di tempo, questo articolo è particolarmente utile per le persone che hanno bisogno di “esplorare” un file di dati ma che non sono ancora aggiornati su come farlo in un linguaggio di programmazione open source come Python o linguaggio R.

Per verificarlo tu stesso, ecco dove trovi la funzione in Microsoft Excel. Stiamo ancora aspettando il giorno in cui Microsoft annuncia il pulsante “Machine Learning”.

Come trovare il pulsante “AnalyzeData”. Questo era precedentemente noto come il pulsante “Idee”. Credito immagine: cattura dello schermo dell’autore con annotazioni.

Questo articolo riepiloga la funzione dei risultati mostrata sopra. L’articolo eseguirà questa revisione utilizzando due serie di dati che puoi trovare online su Github Repo di Seaborn qui. Ovviamente ti consiglio di seguire i dati qui sotto, tuttavia se esplori questo strumento con i tuoi database, spero che commenterai qui su ciò con cui sei d’accordo o meno.

I set di dati (e la loro licenza)

Questo articolo funziona con due origini dati. Entrambe le origini dati sono set di dati di pratiche ben noti per la scienza dei dati e l’apprendimento automatico.

Questi dati sono concessi in licenza come open source tramite Seaborn. Sono generalmente disponibili in Python dal pacchetto seaborn.load_dataset.  Secondo la licenza Seaborn, il pacchetto (con e senza modifiche) può essere ridistribuito purché si soddisfino determinate condizioni. Ho messo di più sulla licenza in fondo a questo articolo.

Il primo set di dati che utilizzeremo in questo articolo (mostrato di seguito) è noto come dati “mpg”. Ecco un link per rivedere il file mpg.csv grezzo.

L’estratto del file mpg.csv. Visualizzazione delle prime cinque osservazioni. Credito immagine: cattura dello schermo dell’autore. Questi dati vengono distribuiti con il pacchetto di visualizzazione dei dati Seaborn. Vedere la parte inferiore di questo articolo per ulteriori informazioni sulla licenza associata al pacchetto di visualizzazione dei dati Seaborn.

Il secondo set di dati che utilizzeremo in questo articolo (mostrato di seguito) è noto come dati “suggerimenti”. Ecco un link per rivedere il file .csv suggerimenti grezzi.

I suggerimenti.csv estratto del file. Visualizzazione delle prime cinque osservazioni. Credito immagine: cattura dello schermo dell’autore. Vedere la parte inferiore di questo articolo per ulteriori informazioni sulla licenza associata al pacchetto di visualizzazione dei dati Seaborn.

È facile aprire questi file in Excel. Basta salvare il file sul computer locale. La maggior parte dei computer, con Microsoft Office, ti consentirà di fare doppio clic sui file per aprirli in Excel. Se ciò non funziona, dovrai prima aprire Excel e utilizzare la sequenza di menu File → Apri. Una volta visualizzata la finestra di dialogo Apri file, è possibile selezionare il file da aprire.

mpg.csv -> https://raw.githubusercontent.com/mwaskom/seaborn-data/master/mpg.csv

Suggerimenti.csv -> https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv

 

Condurre l'analisi esplorativa dei dati

Dati Autombile

Per il file mpg.csv l’EDA automatizzato di Excel fissato sulla variabile di spostamento. Le auto prodotte negli Stati Uniti avevano una cilindrata maggiore, secondo Excel. Excel ha offerto questa intuizione (e poche altre) da sola e ha prodotto la seguente immagine per me.

Spostamento per origine di fabbricazione. Credito immagine: cattura dello schermo dell’autore.

Una caratteristica più recente è l’opportunità di porre una domanda in un inglese semplice. Qui ho chiesto: “Qual è la relazione tra mpg e peso?”

Porre una domanda in Excel. Credito immagine: cattura dello schermo dell’autore.

Per essere chiari, mi aspettavo molto poco. Ho mantenuto basse le mie aspettative. Excel mi ha sorpreso selezionando la strategia di visualizzazione precisa che avrei scelto per me stesso o che avrei consigliato a qualsiasi cliente o studente di scegliere. Ne ho scritto di più, di seguito, ma volevo anche un grafico congiunto qui in modo da poter capire meglio la distribuzione dei dati di ogni variabile – ma nonostante abbia perso la distribuzione dei dati, questo è un buon inizio.

Peso per origine MPG. Credito immagine: cattura dello schermo dell’autore.

Ho fatto un altro tentativo onesto di dare a Excel un test più difficile. Ho chiesto “mpg diminuisce con model_year?” Excel ha prodotto il seguente (utile) oggetto visivo dei dati. Avrei scelto un grafico a linee (non un grafico a barre). Ma Excel ancora una volta mi ha impressionato con la sua capacità di riconoscere i dati che ho chiesto e quindi di produrre questa visualizzazione dei dati significativa. Qui, i dati mostrano chiaramente che l’efficienza è migliorata nel tempo.

MPG per anno. Credito immagine: cattura dello schermo dell’autore.

Mangiare fuori casa

Con il file .csv suggerimenti, Excel ha avuto alcuni passi falsi. Il primo passo falso è stato quello di produrre questo grafico intelligente, ma non completamente etichettato. Qui la mancia è per sesso e per stato di fumo. Ha etichettato il genere … ma non lo stato di fumo. L’asse x è buono, ma l’asse y necessita di un aggiornamento. Le barre blu sono fumatori? Oppure, le barre arancioni sono fumatori?

Suggerimento per sesso. Credito immagine: cattura dello schermo dell’autore.

Successivamente, ho chiesto “quando sono le punte più alte?” Excel non ha restituito alcun risultato utile. Quando ho riformulato in “in quale giorno le punte sono più alte?” Ho ottenuto la risposta corretta, ma non molto contesto, il che sarebbe stato bello.

Il giorno più grande per le mance. Credito immagine: cattura dello schermo dell’autore.

I test finali che ho lanciato a Excel su questo file .csv suggerimenti sono stati “quali sono i suggerimenti medi di giorno?” E poi anche, “quali sono le punte mediane di giorno?” Quando ho chiesto la media ho ottenuto un grafico a barre. Quando ho chiesto i mediani ho ottenuto un tavolo. Sarebbe interessante sapere da Microsoft perché le mediane restituiscono una tabella e mentre le medie restituiscono un grafico a barre.

Suggerimenti per giorno della settimana. Credito immagine: cattura dello schermo dell’autore.

 

Cosa manca (Data Science)

Ho notato che la funzione aggiornata non esamina i valori mancanti così come ha fatto la funzione “Idee” legacy.

L’altra “mancanza” immediata per me è stata la mancanza di una tabella statistica riassuntiva. Voglio vedere i valori alti, i valori bassi, i valori mediani, forse anche i valori del 25 ° e 75 ° percentile. Sono interessato alla scienza. Una tabella (o almeno l’opzione per creare) una tabella di statistiche di riepilogo con i valori sopra e la deviazione standard, ad esempio, sarebbe un miglioramento che aggiungerei al backlog se fossi in Microsoft.

Durante la revisione di questa funzione non ho visto molto per l’elaborazione del linguaggio naturale. Una nuvola di parole potrebbe essere stata un’idea intelligente per Microsoft da includere qui.

Tra le immagini suggerite c’erano più grafici a dispersione. Sono un fan di una buona trama a dispersione. Sono stato felice di vedere che Excel sapeva darmi un grafico a dispersione quando ho chiesto la relazione tra efficienza e peso sopra. Ma per coloro che hanno in mente di costruire in seguito modelli predittivi, modelli di apprendimento automatico o altre attività di modellazione formali, sarebbe stato utile includere le linee di migliore adattamento in quei grafici a dispersione. Sarebbe stata utile anche l’equazione di regressione per quella linea o il coefficiente di correlazione. Un modo più breve per porre questa limitazione è che i suggerimenti di Excel sembrano essere lunghi sugli elementi visivi ma brevi sulle statistiche.

È curioso che Excel non dia un’opzione per visualizzare i valori statistici qui. Sotto il cofano, deduco che Microsoft ha progettato questa funzione con una varietà di strumenti statistici. È una semplificazione eccessiva pensare che Microsoft possa fornire un’opzione per far emergere o rivelare quei valori importanti con un clic del pulsante di attivazione? Coloro che hanno conoscenza delle statistiche avanzate e del calcolo statistico mancheranno di avere accesso immediato ai valori statistici. Forse questa funzionalità non è destinata a coloro che intendono passare all’apprendimento automatico o alla scienza dei dati più avanti nel loro progetto?

Per un altro esempio di output che sarebbe utile per il processo di data science e machine learning, una semplice matrice di correlazione sarebbe intelligente. Le statistiche disponibili da una semplice matrice di correlazione forniscono agli analisti un’abbondanza di approfondimenti aggiuntivi. Un altro esempio di qualcosa che ho trovato mancante è che per tutte le trame, anche un grafico a coppie (simile a quelli facilmente disponibili nei linguaggi di programmazione) sarebbe stato intelligente. Vorrei anche dare grafici congiunti come esempio di un visual che Microsoft dovrebbe aggiungere anche a questa analisi esplorativa dei dati.

Un’altra caratteristica che sembra mancare è una serie di strumenti che ti permetteranno di modificare le immagini. Uno o più strumenti che consentono di modificare l’asse x, l’asse y, i titoli o altri aspetti dell’oggetto visivo sarebbero intelligenti. Attualmente, è necessario inserire l’oggetto visivo nel documento (facile da fare con un clic) prima di poter apportare modifiche. Sarebbe utile, se non modesto, un risparmio di tempo essere in grado di apportare piccole modifiche prima di inserire la bozza nel documento.

Per coloro che si trovano nella fase iniziale dell’EDA è spesso utile esaminare osservazioni campione. In Excel, teoricamente è facile sfogliare le osservazioni nell’ambiente del foglio di calcolo. Tuttavia, una caratteristica che aiuterebbe ulteriormente gli scienziati dei dati sarebbe quella di identificare osservazioni duplicate e anche di identificare osservazioni altamente uniche. Ciò aiuterebbe lo scienziato dei dati a sapere quali osservazioni esaminare più da vicino. È qui che un riepilogo dei valori mancanti aiuterebbe – almeno proporrei un elenco di osservazioni con uno o più valori mancanti.

Per coloro che mirano a condurre analisi più sofisticate in seguito, sarebbe anche bello vedere lo strumento EDA integrarsi con uno o più linguaggi di programmazione, soprattutto se fossero open source.

Mi sono anche trovato a chiedermi se avessi eseguito un po ‘di wrangling dei dati prima di eseguire l’EDA automatizzato di Excel se i risultati già buoni avrebbero potuto essere ancora migliori. Se questa funzione (o forse una funzione accoppiata separata) potesse offrire suggerimenti per la lotta ai dati, sarebbe un miglioramento significativo a mio parere.

Forse la strada da percorrere per Microsoft, se volesse vedere questo strumento supportare meglio i data scientist, la scienza dei dati e l’apprendimento automatico, sarebbe quella di introdurre una “modalità di alimentazione” per la funzionalità? La modalità di alimentazione potrebbe dare ulteriore accesso alle funzionalità mancanti di cui sto scrivendo qui. Per set di dati più grandi, potrebbe anche essere intelligente consentire agli utenti della “modalità di alimentazione” di connettere la funzionalità alla propria infrastruttura cloud su Google Cloud, Azure o AWS (o altre applicazioni cloud).

Inoltre, non ho visto molto potenziale per un data mining più profondo. Per migliorare il potenziale di attività di data mining più approfondite, Microsoft potrebbe prendere in considerazione la possibilità di consentire agli utenti di identificare le caratteristiche principali dei dati (ovvero una manciata di variabili che contano di più per l’utente). Per lo meno sarebbe intelligente consentire agli utenti, facoltativamente, di specificare una variabile indipendente. Forse potrebbe esserci un’opzione per specificare più di una variabile di interesse specifico. Quella variabile consentirebbe a Excel di utilizzare per suggerire in modo più intelligente risultati significativi.

Un’altra funzionalità mancante è un modo per distribuire facilmente gli oggetti visivi risultanti in modo pubblico. Gli utenti di Tableau e Power BI sentiranno l’assenza di queste funzionalità!

Nessuna delle visualizzazioni suggerite includeva una cresta, una trama di scatole o una trama di violino. Questi grafici a singola variabile sarebbero utili per gli utenti che cercano o hanno bisogno di comprendere la distribuzione delle variabili. Molti processi nella scienza dei dati implicano la revisione delle misure di distribuzione.

Sarebbe troppo chiedere se Excel potrebbe sviluppare un pulsante automatico di “raccolta dati” o “data warehouse”?

Alzerò la mano ora se Microsoft decide di voler testare uno dei suggerimenti di funzionalità di cui sopra.

Da Microsoft

Nella possibilità che tu possa pensare che questo strumento sia un “data scientist”, la documentazione gestisce le aspettative. Lo strumento non esegue automaticamente la data science. Questo strumento è utile per analizzare i dati solo in modo rudimentale. Non può sostituire i data scientist che lavorano nel tuo team o nella tua organizzazione.

La documentazione di Microsoft afferma che il suo software Office continua a crescere “più intelligente” nel tempo. Per rendere Excel abbastanza intelligente da eseguire l’analisi dei dati (o almeno l’analisi esplorativa dei dati, per automatizzare il processo di ricerca dei modelli nei dati), Microsoft sta migliorando i suoi prodotti Office con l’infrastruttura cloud.

“Office sta diventando sempre più intelligente, aggiungendo nuove funzionalità ottimizzate per il cloud che possono farti risparmiare tempo e produrre risultati migliori. Queste funzionalità consentono di migliorare la scrittura in Word e Outlook, analizzare i dati in Excel e offrire presentazioni dinamiche in PowerPoint.”

Per quanto riguarda l’argomento di questo articolo, il pulsante “AnalyzeData” di Excel, la documentazione spiega:

“Analyze Data in Excel consente di comprendere i dati attraverso riepiloghi, tendenze e modelli visivi di alto livello. È sufficiente fare clic su una cella in un intervallo di dati e quindi fare clic sul pulsante Analizza dati nella scheda Home. Analizza dati in Excel analizzerà i dati e restituirà elementi visivi interessanti in un riquadro attività.”

Fino a quando Microsoft non continuerà e promuoverà lo sviluppo di questo strumento, coloro che cercano funzionalità più avanzate dovranno guardare ad altre soluzioni.

Domande suggerite / Approfondimenti suggeriti

Dopo aver trovato i modelli nei dati, lo strumento offre più domande aggiuntive suggerite che potresti porre. Suggerisce automaticamente approfondimenti! Come dimostrato nelle schermate sopra, trovare nuovi modelli è semplice come porre una domanda in un inglese semplice. Le domande funzionano meglio quando menzionano esplicitamente le variabili nella parte superiore dei dati.

Per esempio:

Prova: “qual è il rapporto tra total_bill e top?” (Utilizza variabili specifiche).

Non provare: “Qual è la relazione tra la dimensione della bolletta di una persona e quanto mancia?”

Trovo che il software che Microsoft ha scritto qui suggerisca intuizioni quasi quanto molti altri esseri umani che conosco e meglio della maggior parte degli altri strumenti che conosco. In qualche modo il software sembra capire come il tipo di domanda si associa a specifiche tecniche analitiche. Sui suggerimenti.csv file Excel ha offerto 26 suggerimenti totali (utilizzando cinque tecniche di visualizzazione). Mentre sul file mpg.csv Excel ha offerto 35 suggerimenti totali (utilizzando sei tecniche di visualizzazione).

Per capire meglio i suggerimenti ho esaminato la ripartizione dei tipi di grafico. Ogni file ha prodotto una vasta gamma di tipi di grafici, inclusi grafici a dispersione, grafici a barre, grafici a linee e altri grafici. Diversi istogrammi hanno anche mostrato la distribuzione di importanti variabili continue (anche l’analisi univariata è importante). Dai suggerimenti.csv file c’erano tredici grafici a torta. Da mpg. CSV C’erano 11 grafici a torta. I grafici a torta erano in realtà grafici a ciambella. Non sono sicuro di come o perché i grafici a torta fossero così popolari.

Prossime tappe

Ti suggerisco di dare un giro a questa soluzione. Nel tuo ambiente controllato estrai un set dal tuo data warehouse o dai database, includi alcuni dati sensibili ed esplora. Vedi tu stesso se sei soddisfatto della distribuzione delle immagini.

Prendere in considerazione la ricerca di altre origini dati. Potresti, ad esempio, prendere in considerazione l’utilizzo di uno dei 93 set di dati di cui ho scritto di recente. Nello specifico ti consiglio di spulciare le limitazioni che ho elencato sopra. Cerca tu stesso lo strumento per decidere se è utile o meno. Come vedrai di seguito, sotto la nota / e cautelativa non tutti sono impressionati da Excel in generale.

Nota/e cautelativa/e

Prima di giungere alla conclusione è anche importante notare, credo, che potrebbe esserci qualche dubbio sull’accuratezza complessiva dei calcoli statistici in Excel (vedi elenco dei riferimenti). Le critiche della scienza non sono state facili. Secondo Mélard (2014) Microsoft ha continuato a commercializzare il suo prodotto con errori statistici noti. Tuttavia, dalle versioni 2010 del software, sempre secondo Mélard, Microsoft ha iniziato a correggere tali errori. I recenti miglioramenti di Microsoft sui suoi strumenti di analisi esplorativa automatizzata dei dati possono essere un’ulteriore prova di tali miglioramenti.

Conclusione

La funzione Analizza dati di Excel è uno strumento potente e facile da usare per esplorare i dati o l’analisi dei dati. Può identificare rapidamente le relazioni tra le variabili e produrre visualizzazioni utili. Sebbene a volte produca risultati errati o incompleti, è uno strumento prezioso per l’esplorazione e l’analisi dei dati. Sono rimasto impressionato dalla “conoscenza” che lo strumento sembra avere.

In questo articolo sono state inoltre identificate più funzionalità mancanti o non ancora completate. Alcuni degli elementi mancanti erano valori statistici chiave, tabelle di riepilogo, l’opzione per creare altri grafici e tabelle più tradizionali nell’esplorazione dei dati come grafici a coppie o grafici congiunti.

Il processo e la scienza dell’analisi dei dati potrebbero non essere mai completamente automatizzati. Tuttavia, Microsoft, con questo strumento, sta dimostrando come algoritmi ben progettati e un assist dal cloud possano funzionare meglio del previsto. Per i team che hanno bisogno di automatizzare i processi associati alla scienza dei dati, suggerirei di creare una nuova interruzione nella documentazione che prevede l’esecuzione di nuovi file di dati tramite questa funzionalità in Excel.

Come discusso in precedenza, lo strumento non è l’analisi avanzata. Non può sostituire il lavoro di un data scientist. Non è di per sé scienza dei dati. Ma, quando si cerca di avviare un’analisi dei dati, questo è un buon punto di partenza. Creerà per te più visualizzazioni di dati che potrebbero ispirarti più avanti nel tuo progetto. La funzione non solo suggerisce strategie significative di visualizzazione dei dati, ma può anche identificare e spiegare in inglese semplici informazioni utili. Non molti strumenti o soluzioni software stanno articolando le intuizioni nel modo apparentemente fluente e automatizzato di questo strumento. Microsoft sembra essere leader nello sviluppo di esplorazione automatizzata dei dati.

In questo articolo abbiamo esaminato le prestazioni dell’analisi esplorativa automatizzata dei dati di Microsoft nota come “AnalyzeData” (precedentemente nota come “Ideas”) durante la revisione di due set noti di dati dalla libreria Seaborn. Dopo alcuni recenti sviluppi, Microsoft ha ampliato le soluzioni eseguite da questa funzionalità. Analizza singoli punti dati, due o più variabili, variabili categoriali e trova modelli.

Come data scientist, ho intenzione di aggiungere questa funzione “AnalyzeData” alla mia cintura degli attrezzi. Ho intenzione di consigliare ad altri che aspirano a diventare uno scienziato dei dati o un analista di dati di prendere in considerazione anche l’aggiunta di questo strumento alla loro cintura. Questo strumento può essere utile per molti analisti aziendali.

Share:

Contenuti
Torna in alto