Come controllare la canalizzazione dei dati: segui queste 3 best practice

I data scientist devono prendere decisioni su quali dati includere nei repository di dati. Per semplificare questo processo decisionale, scopri i suggerimenti per mantenere il controllo della canalizzazione dei dati.

mary-how-data-funnel
Immagine: Elnur/Adobe Stock

A partire dal 2022, ogni giorno in tutto il mondo vengono creati 2,5 quintilioni di byte di nuovi dati. Mentre alcuni di questi dati saranno utili per l’analisi, può richiedere molto tempo e può essere difficile da ordinare. Creando una canalizzazione di dati efficace, sarai in grado di filtrare più facilmente i dati di cui hai bisogno.

VEDERE: Kit per l’assunzione: Ingegnere di database (Premio TechRepublic)

Che cos’è un funnel di dati?

Un imbuto di dati si riferisce al restringimento della quantità di dati consentiti nel repository dei dati principali.

Un buon modo per pensare a un funnel di dati è confrontarlo con i funnel di assunzione che uno strumento delle risorse umane applica quando utilizza un software per selezionare i curriculum dei candidati di lavoro. Le risorse umane immettono i requisiti per una posizione aperta in un software di analisi che esamina i curricula in entrata per creare una canalizzazione di dati in entrata più piccola dei candidati per una determinata posizione. Ciò consente ai responsabili delle risorse umane e dei colloqui di concentrarsi su attività più importanti anziché incanalare manualmente i curriculum.

La canalizzazione funziona anche sui dati. In un caso, una società di scienze della vita che studiava una particolare molecola per il suo potenziale di lotta contro le malattie ha eliminato tutte le fonti di ricerca di dati in arrivo che non menzionavano la molecola per nome. Gli obiettivi erano di risparmiare spazio di archiviazione ed elaborazione, nonché di arrivare prima a informazioni dettagliate. Pur filtrando tutti i dati estranei che hanno funzionato per questa azienda, il controllo di una canalizzazione di dati è un atto di equilibrio tra la quantità di dati necessaria e la quantità di dati che puoi permetterti di archiviare ed elaborare.

Come si decide quali dati sono importanti?

L’enorme costo di archiviazione ed elaborazione, sia esso interno o nel cloud, sta costringendo le aziende a valutare la quantità di dati di cui hanno bisogno per l’analisi aziendale.

In alcuni casi, decidere quali dati eliminare è facile. Probabilmente non vuoi il rumore della rete e delle strette di mano della macchina nei tuoi dati, ma decidere quali dati relativi all’argomento escludere è più difficile. C’è anche il rischio che i team di analisi possano perdere informazioni importanti a causa dei dati esclusi.

Ad esempio, utilizzando i dati che normalmente raccoglierebbe, un rivenditore del Regno Unito potrebbe non aver scoperto che le casalinghe facevano la maggior parte dei loro acquisti online mentre i loro mariti erano fuori per le partite di calcio.

Esempi come queste informazioni inaspettate ma di grande impatto sono il motivo per cui i gruppi IT e aziendali finali devono prestare attenzione quando prendono decisioni su quanto restringere il funnel per i dati in entrata.

3 best practice per il controllo di un funnel di dati

Descrivi i casi d’uso supportati dalle tue analisi e i dati di cui pensi che abbiano bisogno

Questo dovrebbe essere un esercizio di collaborazione tra informatica/scienza dei dati e utenti finali. Vuoi includere i reclami sui prodotti dei social media quando analizzi i tuoi dati sulle vendite e sui ricavi? E se stai studiando i tassi di malattia nella tua area di servizio medico a New York, ti ​​interessa cosa sta succedendo in California?

Determina quanto devono essere accurate le tue analisi

Il gold standard per l’accuratezza dell’analisi è che l’analisi deve raggiungere almeno il 95% di precisione rispetto a ciò che gli esperti in materia umana concluderebbero, ma hai sempre bisogno del 95%?

Potrebbe essere necessaria una precisione del 95% se si sta valutando la probabilità di una diagnosi medica in base a determinate condizioni di salute del paziente, ma una precisione del 70% potrebbe essere necessaria solo se si prevede quali condizioni climatiche potrebbero essere tra 20 anni.

I requisiti di accuratezza influiscono sulla canalizzazione dei dati e potresti essere in grado di escludere più dati e restringere la canalizzazione se stai solo cercando tendenze generali a lungo termine.

Verifica regolarmente l’accuratezza delle tue analisi

Se la tua analisi mostra un’accuratezza del 95% quando viene implementata per la prima volta, ma scende all’80% nel tempo, ha senso ricontrollare i dati che stai utilizzando e ricalibrare la canalizzazione dei dati.

Forse sono ora disponibili nuove origini dati che non erano originariamente disponibili e dovrebbero essere utilizzate. L’aggiunta di queste origini dati amplierà la canalizzazione dei dati, ma se aumenta i livelli di precisione, l’espansione della canalizzazione dei dati vale il costo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *