Che cos’è la qualità dei dati?

Molto spesso, quando si parla o si scrive di qualità dei dati nel nostro settore, la discussione sembra essere superficiale e priva di profondità. C’è molto spazio per i fraintendimenti che rendono obsoleta la discussione nel suo complesso. Questo post dovrebbe aiutare a classificare gli argomenti della discussione sulla qualità e ad approfondirla.

Le cinque dimensioni della qualità

Iniziamo con un quadro generale di qualità per localizzare gli argomenti nel loro campo semantico. Secondo David Garmin (1984) esistono cinque approcci principali alla qualità.

Approccio trascendente

Secondo l’approccio trascendente, la qualità è definita come un’eccellenza innata, assoluta e universale. “I dati di alta qualità devono essere perfetti e impeccabili”. Un problema generale è che è piuttosto difficile stabilire come siano i “dati perfetti” e come ottenerli. Tuttavia, questo approccio è abbastanza comune nella ricerca. La validità come “obiettivo trascendente”, ad esempio, porta molto spesso al problema di trovare un buon compromesso tra validità interna ed esterna.

Approccio basato sul prodotto

L’approccio basato sul prodotto considera la qualità come il risultato degli ingredienti e degli attributi giusti del prodotto, nel nostro caso i dati. “I dati di alta qualità hanno selezionato con cura gli intervistati nel campione, che scrivono molte parole nei campi di testo aperti”. In questo caso, la qualità dei dati è abbastanza tangibile e può essere misurata con precisione. Tuttavia, questa concezione della qualità è molto formale e, quindi, troppo superficiale.

Approccio basato sull’utente

L’approccio basato sull’utente parte dalla premessa che utenti diversi possono avere esigenze e requisiti diversi. In questo caso, la massima qualità dei dati è ciò che meglio soddisfa queste esigenze. Pertanto, la qualità dei dati è altamente individuale e soggettiva: dati di alta qualità per un utente possono essere considerati di qualità media o scarsa per un altro.

Approccio basato sulla produzione

La definizione basata sulla produzione si concentra sul processo di produzione dei dati, o nella terminologia della ricerca: si concentra sulla metodologia. “I dati validi vengono raccolti nel rispetto degli standard scientifici e delle migliori pratiche del nostro settore”. Sebbene questo approccio renda i dati altamente comparabili, a volte non è adatto al compito del ricercatore.

Approccio basato sul valore

Infine, ma non meno importante, esiste un approccio basato sul valore, che vede la qualità come un ritorno positivo sull’investimento (o più specificamente: Return On Insight). In questo caso, i dati hanno una qualità elevata se i costi di raccolta sono minimi e i benefici derivanti dal loro utilizzo sono massimi. A prima vista, questo approccio sembra legittimo, ma ha anche i suoi lati negativi. Questo approccio non dice molto sulle proprietà dei dati in sé, ma piuttosto sulle esigenze informative dell’utente.

Le cinque dimensioni della qualità dei dati: eccellenza innata, metodologia e processo, ritorno sugli insight, proprietà dei dati e requisiti degli utenti.

Opinioni contrastanti sulla qualità

Tutti questi approcci portano molto spesso a opinioni contrastanti sulla qualità. I data collector, ad esempio, possono prestare attenzione alla metodologia e ai formati dei dati, mentre gli acquirenti della ricerca si concentrano piuttosto sulle loro esigenze individuali e sul Return on Insight. E anche all’interno delle aziende possono esistere prospettive diverse. I membri del reparto vendite o marketing possono ritenere fondamentale il punto di vista dei clienti, mentre i project manager vedono la qualità come specifiche e processi ben definiti. Essere consapevoli di questi diversi punti di vista può aiutare a migliorare la comunicazione sulla qualità e, di conseguenza, a migliorare la qualità stessa.

Ma anche se siete tutti d’accordo, potreste avere difficoltà a trovare l’approccio giusto. Prendiamo ad esempio i dati di osservazione. Questo metodo può essere la scelta migliore per rispondere alle domande di ricerca, ma si può incorrere nel problema di avere formati complessi dei dati, valori mancanti o outlier. Anche questo può avere un impatto sul ritorno dell’insight e richiede un approccio diverso.

Per farla breve, non è facile capire cosa sia la qualità dei dati. Tutti sostengono di averla, ma un’analisi più attenta rivela che le relative argomentazioni molto spesso cadono a pezzi. Probabilmente, sarebbe ingenuo limitarsi a chiedere una prospettiva più olistica, poiché i diversi approcci sono in innata tensione. Questo non significa che la qualità dei dati sia solo un’illusione o un arbitrio, ma ci ricorda che la qualità dei dati richiede un certo impegno e non si risolve da sola. In ogni caso, la qualità dei dati inizia con una buona comunicazione di ciò che ci si aspetta.

Chi ne parla

Nella sezione precedente, abbiamo esplorato un quadro teorico per la categorizzazione delle argomentazioni relative alla qualità dei dati, fornendo una comprensione fondamentale delle varie prospettive in questa discussione. Con questa prospettiva più ampia, ci addentreremo ora negli aspetti pratici della qualità dei dati, concentrandoci su ciò che è più rilevante e su come raggiungerlo.

L’approccio empirico

Negli anni ’90 Richard Wang e Diane Strong hanno condotto una ricerca molto interessante. Nella prima fase, hanno chiesto ai consumatori di dati di elencare tutti gli attributi che vengono loro in mente quando pensano alla qualità dei dati. Nella seconda fase, questi attributi sono stati classificati per importanza. Un’analisi fattoriale ha consolidato i 179 attributi iniziali in un insieme più piccolo di dimensioni della qualità dei dati in quattro categorie principali.

Qualità intrinseca dei dati

La qualità intrinseca dei dati comprende l'”accuratezza” e l'”obiettività”, vale a dire che i dati devono essere corretti e non parziali. Mentre queste due dimensioni sembrano essere abbastanza autoesplicative, la “credibilità” e la “reputazione” non sono così ovvie. È interessante notare che non riguardano i dati in sé, ma si riferiscono alla fonte dei dati, gli intervistati o il fieldwork provider: gli intervistati devono essere reali e autentici, mentre il fieldwork provider deve essere affidabile e serio.

Qualità contestuale dei dati

Con qualità dei dati di contesto si intende che alcuni aspetti della qualità dei dati possono essere valutati solo alla luce del compito corrispondente. Poiché questo contesto può variare molto, non è sempre facile ottenere un’elevata qualità dei dati contestuali. La maggior parte delle dimensioni contestuali (valore aggiunto, pertinenza, tempestività, completezza, quantità adeguata di dati) richiede una pianificazione approfondita prima di impostare e condurre la ricerca. Al contrario, è molto difficile migliorare la qualità dei dati contestuali una volta che sono stati raccolti (ad esempio, ricordando di migliorare la completezza).

Qualità della rappresentatività dei dati

La qualità dei dati rappresentativi si riferisce al modo in cui i dati sono formattati (concisi e coerenti) e al grado in cui è possibile ricavarne il significato (interpretabilità e facilità di comprensione). Immaginate semplicemente le routine di convalida dei dati per un sondaggio online. Quando si chiede l’età degli intervistati, ad esempio, si dovrebbe fare in modo che tutti (coerentemente) inseriscano l’età in anni interi (in modo conciso) o anche all’interno delle fasce d’età a cui si è particolarmente interessati (facilità di comprensione). In ogni caso, l’intervistato non potrà presentare valori errati o estremi (interpretabilità).

Qualità dell’accessibilità dei dati

Le due dimensioni all’interno di questa categoria possono essere opposte e, quindi, richiedono un buon equilibrio. L’accessibilità riguarda la facilità di recupero dei dati, mentre la sicurezza dell’accesso riguarda il modo in cui l’accesso può essere limitato e controllato. Questi aspetti hanno ricevuto un’attenzione crescente negli ultimi anni, ad esempio le dashboard online o i data warehouse.

Verso una qualità eccellente dei dati

Come si può notare, la “Qualità intrinseca dei dati” dipende principalmente dalla selezione della giusta fonte di dati, la “Qualità contestuale dei dati” dalla pianificazione accurata dello studio, la “Qualità rappresentativa dei dati” dalla raccolta dei dati nel modo giusto e la “Qualità dell’accessibilità dei dati” dal reporting corretto dei dati. O, più in generale, in ogni fase del processo di ricerca dobbiamo affrontare compiti e sfide diverse per ottenere il miglior risultato possibile.

Nella prima sezione abbiamo discusso di come le diverse prospettive sulla qualità dei dati possano talvolta competere. Sebbene sia ancora valido che i requisiti di tutte le parti interessate debbano essere soddisfatti in primo luogo, è forse ancora più importante che ogni anello della catena del valore contribuisca alla qualità complessiva durante la raccolta e l’elaborazione dei dati. Poiché la ricerca è diventata un processo complesso con responsabilità suddivise, dobbiamo assicurarci che gli standard di qualità siano rispettati durante l’intero processo.

Pagine correlate

Per saperne di più sulla qualità dei dati con i dati di Norstat

Qualità dei dati con il panel Norstat

Trovare i partecipanti giusti per il tuo studio è fondamentale per ottenere dati pertinenti e utili. Grazie alla nostra vasta rete di intervistati in Europa, vi assicuriamo l’accesso ai consumatori che stai cercando.

Esplora i nostri panel

Qualità del panel

Nella costante ricerca di dati affidabili su cui basare il processo decisionale, non può essere sopravvalutata l’importanza di avere un panel di alta qualità. Ma cosa definisce esattamente la qualità di un panel e come si fa a mantenerla?

Per saperne di più

Migliorare la qualità dei dati con gli algoritmi

L’intuizione deve guidare le nostre azioni dando loro una struttura. E le intuizioni seguono la struttura dei dati sottostanti. Per definizione, le strutture sono stabili e resistono alle perturbazioni. I dati hanno un’elevata longevità e quindi la loro qualità deve essere considerata come un bene che continua a ripagare in futuro.

Per saperne di più