Scienza dei dati contro bioinformatica
Un bioinformatico è un data scientist in biologia?
Articolo di Zahra Elhamraoui: https://medium.com/@zahraelhamraoui1997/data-science-versus-bioinformatics-859a086c8587
In questi giorni c’è molto interesse per la scienza dei dati da parte delle comunità biologiche e mediche. Con la diminuzione dei costi di sequenziamento, le dimensioni degli insiemi di dati negli studi biologici e la profondità del sequenziamento per campione sono aumentate, e naturalmente, come ogni campo che ha accesso a grandi insiemi di dati, le persone sono interessate a ciò che la “scienza dei dati” può offrire.
Essendo laureata in bioinformatica e interessata all’apprendimento automatico e alla scienza dei dati, mi sono sempre chiesta come ci si muova tra scienza dei dati e bioinformatica.
Un bioinformatico è uno scienziato dei dati in biologia?
Scienza dei dati vs bioinformatica: Metodologie e competenze
Che cos’è la bioinformatica?
La bioinformatica è l’applicazione di tecniche informatiche per ottenere, archiviare e interpretare grandi quantità di dati biologici.
Metodologia bioinformatica
Per operare in questi campi, è necessario essere in grado di elaborare dati grezzi su larga scala (di solito sequenze o qualche forma di dati omici), controllare la qualità e trasformare i dati elaborati. Successivamente, dovrete applicare modelli di apprendimento automatico o statistici a seconda del problema. Probabilmente si procederà alla riduzione delle dimensioni e al clustering, seguiti dalla visualizzazione. Potrebbe essere necessario ripetere tutte queste fasi o adottare approcci diversi a seconda del risultato iniziale dell’analisi. Scriverete relazioni e presentazioni per trasmettere la vostra storia basata sui dati. Inoltre, devono adattarsi alle tecnologie di generazione dei dati in continua evoluzione, ai formati dei file e ai nuovi approcci statistici e di apprendimento automatico.
Competenze bioinformatiche
– Almeno uno o due linguaggi di programmazione, solitamente Python, Perl o R.
– Shell Unix, molti toolkit sono basati su comandi bash.
– Conoscere molti dei toolkit disponibili nella pipeline NGS, tra cui allineamento, assemblaggio e chiamata di varianti.
– Conoscere molti dei database disponibili. Questi possono includere varianti, relazioni genotipo-fenotipo, relazioni fenotipo-farmaco, ecc.
Se volete acquisire queste competenze su Deep Learning Italia c’è un corso pensato proprio per voi, ovvero “Data Science e Bioinformatica“, correte a iscrivervi 🙂
Cos'è la scienza dei dati
La scienza dei dati è il campo di studi che unisce la padronanza dell’area, le attitudini di programmazione e le informazioni sull’aritmetica e sulle misurazioni per rimuovere le esperienze significative dai dati.
Metodologia della scienza dei dati
Sono diversi i punti in cui una persona può entrare nella pipeline della scienza dei dati. Se sta raccogliendo dati, probabilmente si chiamerà “ingegnere dei dati” e si occuperà di estrarre i dati da varie fonti, pulirli, elaborarli e memorizzarli in un database.
Competenze della scienza dei dati
Secondo udacity, le competenze essenziali di un data scientist sono:
– Programmazione
– Apprendimento automatico
– Statistica
– Gestione dei dati: elaborazione, formattazione e trasformazione dei dati
– Visualizzazione e comunicazione dei dati
– Intuizione dei dati (questo aspetto è un po’ meno chiaro, credo che si intenda la risoluzione di problemi legati all’analisi dei dati, sapendo cosa controllare e testare quando qualcosa non funziona correttamente).
Discussione
Naturalmente un bioinformatico raccoglie dati nell’ambito del proprio lavoro e li analizza con vari metodi statistici e alcuni complessi modelli matematici a fini predittivi; di solito ci si riferisce a questo lavoro come a un data scientist.
A mio parere, la bioinformatica si concentra sui genomi e sulle proteine come sequenze. Il materiale della bioinformatica sono innanzitutto le stringhe. Anche le stringhe sono dati. Tuttavia, differisce molto dalla scienza dei dati in altri campi.
Se si eliminano i requisiti specifici del dominio dal set di competenze della bioinformatica, rimangono la maggior parte delle competenze della scienza dei dati e altre ancora. Le persone che passano dalla bioinformatica alla scienza dei dati dovranno molto probabilmente adattarsi all’organizzazione dei dati e all’ambiente di distribuzione del loro datore di lavoro.
Conclusione
Queste sono le mie ricerche personali; se avete commenti, contattatemi.
Share:
![](https://deeplearningitalia.com/wp-content/uploads/2023/04/Progetto-senza-titolo1.png)