Miti e realtà della scienza dei dati

I data scientist trascorrono davvero l’80% del loro tempo a discutere di dati?

Sì e no. L’implicazione è chiara: se questa statistica è accurata, l’onere del provisioning dei dati per i loro modelli impedisce ai data scientist di utilizzare le proprie capacità di scienza dei dati.

Perso in questa argomentazione è che la stessa “comunicazione dei dati” implica notevoli capacità di scienza dei dati. Inoltre, la disputa fornisce vantaggi a valle ad altri, utilizzando i risultati scoperti dallo scienziato. Infine, è ridicolo fare una dichiarazione generale quando il lavoro dei data scientist non è uniforme nel settore e nelle piattaforme di dati.

Questa affermazione 80/20 è apparsa per la prima volta almeno dieci anni fa e persiste ancora. Non ci sono prove chiare e rigorose che questa misura dell’80% sia accurata. A seconda delle circostanze, infatti, varia ampiamente a seconda dell’organizzazione, dell’applicazione e, certamente, delle competenze e degli strumenti applicati. Tuttavia, è impossibile negare che l’approvvigionamento di dati per usi analitici e di scienza dei dati sia uno sforzo significativo, indipendentemente dalla percentuale citata.

Tuttavia, acquisire dati validi per le indagini è un problema schiacciante di gestione dei dati in un mondo sempre più complesso, ibrido e distribuito. È troppo bello anche per analisti e scienziati altamente qualificati da gestire da soli. La soluzione è una piattaforma che fornisce servizi coerenti e connessi come rilevamento delle relazioni dati, flusso di dati, rilevamento di dati sensibili, deriva dei dati, analisi dell’impatto e analisi dei dati ridondanti. L’intera suite deve essere guidata dall’IA che lavora di concerto con esperti per favorire il riapprendimento e l’adattamento. Al posto di approcci inadeguati, un catalogo di dati semanticamente ricco sostenuto da un grafico della conoscenza è la chiave per trarre valore dallo sforzo affinché tutto questo sforzo sia efficace.

Le cose da considerare sono:

  • Perché la tecnologia di apprendimento automatico incorporata per popolare e mantenere un grafico della conoscenza è essenziale per affrontare il lavoro di gestione della scoperta dei dati mappando le relazioni nei dati distribuiti non evidenti nei processi manuali.
  • Il processo di rilevamento dei dati è dinamico, non un mapping ETL una tantum a uno schema stabile.
  • Quali metadati effettivi non sono ordinatamente organizzati in un cassetto ma attivi durante l’intero processo dalla scoperta a un catalogo di dati dinamico e semanticamente ricco.
  • Perché anche il software basato sull’apprendimento automatico è inadeguato se si ferma ai metadati come i nomi delle colonne e non indaga sulle istanze effettive dei dati stessi.
  • Il ruolo dell’apprendimento continuo. Quando gli esperti esaminano i risultati dei modelli, il loro input come aggiunte, eliminazioni o correzioni viene inviato agli algoritmi per imparare di nuovo e adattarsi.

Sono necessari strumenti migliori per migliorare la produttività (e la soddisfazione sul lavoro) dei professionisti altamente qualificati e retribuiti. In modi più tradizionali, anche coloro che eseguono analisi nelle organizzazioni possono trarre vantaggio da un prodotto intelligente e integrato che li porta dall’acquisizione dei dati a un catalogo di dati attivo e semanticamente ricco.

Non si può fare con i metodi tradizionali. Ci sono troppi dati e una diversità di fonti per le soluzioni programmatiche. Gli scienziati dei dati (usiamo il termine “scienziato dei dati” in senso ampio per indicare chiunque utilizzi i dati per un lavoro analitico e quantitativo) hanno bisogno di aiuto. È interessante notare che quell’aiuto proviene dalle stesse discipline che usano nel loro lavoro. Le soluzioni oggi che hanno il lavoro, al centro, la tecnologia di apprendimento automatico.

La promessa dell’apprendimento automatico e delle applicazioni imbevute di intelligenza artificiale che ci catapultano verso capacità impressionanti è alimentata dai progressi nelle tecnologie di elaborazione, archiviazione e rete, dalla capacità di elaborare i dati su una scala fantastica e dall’espansione delle competenze dei data scientist. Questo fondamento tecnologico consente un approccio innovativo alla gestione dei dati, impossibile nemmeno un decennio fa.

Il volume di dati odierno aggiunge complessità al problema, ma è necessario dargli un senso su larga scala.

Solo pochi anni fa, le cose sembravano essere più ordinate. Prima dell’inizio dei big data, seguiti da “data lake” e archivi di oggetti cloud, il repository di dati principale del data warehouse per l’analisi. La tecnologia per estrarre e integrare i dati per il data warehouse era Extract, Transform and Load (ETL). L’ETL è stato caricato in anticipo nel processo di sviluppo del data warehouse, estraendo le informazioni da origini dati alquanto note a uno schema noto. Una volta risolto, ETL funzionava principalmente come un processo costante. più I data warehouse sono stabili ma non statici, quindi di solito c’è uno sviluppo continuo con ETL, ma per la maggior parte le routine vengono eseguite come produzione.

L’approvvigionamento e l’integrazione dei dati per i data warehouse non è stato facile. Innanzitutto, i sistemi di origine non sono stati progettati per essere fornitori di dati per un data warehouse. La semantica non era allineata e c’erano problemi di qualità dei dati

L’attuale fascinazione per la “trasformazione digitale” ha le organizzazioni che lottano per aumentare le competenze nell’apprendimento automatico, nell’intelligenza artificiale, nel deep learning o anche solo nei semplici modelli predittivi. Le origini dati da prendere in considerazione sono esplose. Per esempio:

  • Le piattaforme di social media offrono un’ampia varietà di visualizzazioni dei propri dati,
  • Data.gov contiene oltre un quarto di milione di set di dati che vanno dagli incidenti della Guardia Costiera alle popolazioni di uccelli, dai dati demografici alle informazioni del Dipartimento del Commercio.
  • Healthdata.gov contiene 125 anni di dati sanitari statunitensi, inclusi i dati Medicare a livello di richiesta, l’epidemiologia e le statistiche sulla popolazione. Queste sono solo alcune delle migliaia di origini dati esterne.

Anche all’interno di un’organizzazione, le origini dati disgiunte ideate per acquisire dati all’interno di un singolo dominio sono ora considerate dati di importanza critica per nuove applicazioni che prima non erano possibili. Ad esempio, Population Health Management, come area applicativa, richiede almeno le seguenti origini dati:

  • Dati demografici del paziente
  • Segni vitali
  • Risultati di laboratorio
  • Note di avanzamento
  • Elenchi di problemi e diagnosi
  • Codici di procedura
  • Liste di allergie
  • Dati sui farmaci
  • Ammissione, dimissione e trasferimento
  • Infermieristica qualificata e salute domiciliare
  • Determinanti sociali della salute

Nessun data warehouse può integrare comodamente tutti questi dati. Ci sono troppi domini, troppi tipi di dati e il semplice sforzo di pulizia e cura potrebbe sopraffare qualsiasi schema di data warehouse. La posizione logica per questi dati è una variante del cloud e in locale, distribuita tramite Hadoop o Spark o un data lake (o lake). Questi archivi di dati rappresentano un modo conveniente per gestire l’acquisizione dei dati, ma non hanno la funzionalità per attivarli, per dargli un significato per l’investigatore.

Il problema sorge perché nessuna di queste fonti di dati è semanticamente compatibile con le altre. La combinazione e l’integrazione di dati provenienti da più dati aumenta la ricchezza dei modelli. Qui sta il problema dell’80%.

Il lavoro di data science è molto spesso una tantum. Si tratta di un processo in più fasi che prevede la profilazione dei dati, alcune operazioni di pulizia dei dati, la trasformazione continua di dati da diverse origini in un unico formato, il salvataggio dei dati, la denominazione di qualcosa che possono ricordare e il monitoraggio delle versioni. Ogni indagine inizia con un modello e seleziona i dati per esso. La creazione di dati di addestramento comporta una maggiore gestione dei dati e vengono denominate e salvate anche più esecuzioni o versioni del modello. Un altro contrasto tra ETL e data discovery oggi è che ETL è sempre mappato su uno schema stabile.

la mia opinione

C’è una gestione dei dati notevolmente maggiore per ogni esperimento, molto diversa dall’estrazione di dati curati da un data warehouse. Questo è il motivo per cui richiede così tanto tempo. È un killer naturale della produttività per i data scientist. Anche quando si utilizzano strumenti progettati per big data/data science, ci sono molti passaggi e spesso vengono impiegate più tecnologie, con metadati incompatibili e hand-off da deboli a inesistenti. C’è un modo migliore.

.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *