Nella sezione precedente, abbiamo esplorato un quadro teorico per la categorizzazione delle argomentazioni relative alla qualità dei dati, fornendo una comprensione fondamentale delle varie prospettive in questa discussione. Con questa prospettiva più ampia, ci addentreremo ora negli aspetti pratici della qualità dei dati, concentrandoci su ciò che è più rilevante e su come raggiungerlo.
L’approccio empirico
Negli anni ’90 Richard Wang e Diane Strong hanno condotto una ricerca molto interessante. Nella prima fase, hanno chiesto ai consumatori di dati di elencare tutti gli attributi che vengono loro in mente quando pensano alla qualità dei dati. Nella seconda fase, questi attributi sono stati classificati per importanza. Un’analisi fattoriale ha consolidato i 179 attributi iniziali in un insieme più piccolo di dimensioni della qualità dei dati in quattro categorie principali.
Qualità intrinseca dei dati
La qualità intrinseca dei dati comprende l'”accuratezza” e l'”obiettività”, vale a dire che i dati devono essere corretti e non parziali. Mentre queste due dimensioni sembrano essere abbastanza autoesplicative, la “credibilità” e la “reputazione” non sono così ovvie. È interessante notare che non riguardano i dati in sé, ma si riferiscono alla fonte dei dati, gli intervistati o il fieldwork provider: gli intervistati devono essere reali e autentici, mentre il fieldwork provider deve essere affidabile e serio.
Qualità contestuale dei dati
Con qualità dei dati di contesto si intende che alcuni aspetti della qualità dei dati possono essere valutati solo alla luce del compito corrispondente. Poiché questo contesto può variare molto, non è sempre facile ottenere un’elevata qualità dei dati contestuali. La maggior parte delle dimensioni contestuali (valore aggiunto, pertinenza, tempestività, completezza, quantità adeguata di dati) richiede una pianificazione approfondita prima di impostare e condurre la ricerca. Al contrario, è molto difficile migliorare la qualità dei dati contestuali una volta che sono stati raccolti (ad esempio, ricordando di migliorare la completezza).
Qualità della rappresentatività dei dati
La qualità dei dati rappresentativi si riferisce al modo in cui i dati sono formattati (concisi e coerenti) e al grado in cui è possibile ricavarne il significato (interpretabilità e facilità di comprensione). Immaginate semplicemente le routine di convalida dei dati per un sondaggio online. Quando si chiede l’età degli intervistati, ad esempio, si dovrebbe fare in modo che tutti (coerentemente) inseriscano l’età in anni interi (in modo conciso) o anche all’interno delle fasce d’età a cui si è particolarmente interessati (facilità di comprensione). In ogni caso, l’intervistato non potrà presentare valori errati o estremi (interpretabilità).
Qualità dell’accessibilità dei dati
Le due dimensioni all’interno di questa categoria possono essere opposte e, quindi, richiedono un buon equilibrio. L’accessibilità riguarda la facilità di recupero dei dati, mentre la sicurezza dell’accesso riguarda il modo in cui l’accesso può essere limitato e controllato. Questi aspetti hanno ricevuto un’attenzione crescente negli ultimi anni, ad esempio le dashboard online o i data warehouse.