Iepriekšējā nodaļā mēs izpētījām teorētisko ietvaru ar datu kvalitāti saistīto argumentu kategorizēšanai, tādējādi sniedzot pamatinformāciju par dažādām perspektīvām šajā diskusijā. Ņemot vērā šo plašāko perspektīvu, mēs tagad pievērsīsimies datu kvalitātes praktiskajiem aspektiem, koncentrējoties uz to, kas ir vissvarīgākais un kā mēs to varam sasniegt.
Empīriskā pieeja
Ričards Vangs (Richard Wang) un Diāne Stronga (Diane Strong) 90. gados veica ļoti interesantu pētījumu. Pirmajā posmā viņi lūdza datu patērētājiem uzskaitīt visas īpašības, kas viņiem nāk prātā, domājot par datu kvalitāti. Otrajā posmā šie atribūti tika sarindoti pēc svarīguma. Veicot faktoru analīzi, sākotnējie 179 atribūti tika konsolidēti līdz mazākam datu kvalitātes dimensiju kopumam četrās galvenajās kategorijās.
Datu kvalitāte pēc būtības
Datu iekšējā kvalitāte ietver “precizitāti” un “objektivitāti”, kas nozīmē, ka datiem jābūt pareiziem un pamatotiem. Lai gan šīs divas dimensijas šķiet diezgan pašsaprotamas, “ticamība” un “reputācija” nav tik acīmredzamas. Interesanti, ka tas neattiecas uz pašiem datiem, bet gan uz datu avotu – vai nu respondentiem, vai lauka darba veicēju: respondentiem jābūt īstiem un autentiskiem, savukārt lauka darba veicējam jābūt uzticamam un nopietnam.
Datu kontekstuālā kvalitāte
Kontekstuāla datu kvalitāte nozīmē, ka dažus datu kvalitātes aspektus var novērtēt tikai saistībā ar attiecīgo uzdevumu. Tā kā šis konteksts var būt ļoti atšķirīgs, sasniegt augstu kontekstuālo datu kvalitāti ne vienmēr ir viegli. Lielākā daļa kontekstuālo dimensiju (pievienotā vērtība, atbilstība, savlaicīgums, pilnīgums, atbilstošs datu apjoms) prasa rūpīgu plānošanu pirms pētījuma sagatavošanas un veikšanas. Un otrādi, ir ļoti grūti uzlabot kontekstuālo datu kvalitāti pēc tam, kad tie jau ir savākti (piemēram, atgādinājumi, lai uzlabotu datu pilnīgumu).
Datu reprezentācijas kvalitāte
Datu reprezentācijas kvalitāte attiecas uz veidu, kādā dati ir formatēti (kodolīgi un konsekventi), un uz to, cik lielā mērā no tiem var iegūt nozīmi (interpretējamība un saprotamības vieglums). Vienkārši iedomājieties tiešsaistes aptaujas datu validēšanas procedūras. Piemēram, uzdodot jautājumu par respondentu vecumu, pārliecinieties, ka visi (konsekventi) ieraksta vecumu veselos gados (kodolīgi) vai pat tajās vecuma grupās, kas jūs īpaši interesē (ērtāka izpratne). Jebkurā gadījumā respondentam tiks traucēts iesniegt kļūdainas vai neiespējamas vērtības (interpretējamība).
Datu pieejamības kvalitāte
Abas šīs kategorijas dimensijas var būt pretējas, tāpēc tām ir nepieciešams labs līdzsvars. Pieejamība ir saistīta ar to, cik viegli un bez piepūles var iegūt datus, savukārt piekļuves drošība ir saistīta ar to, kā piekļuvi var ierobežot un kontrolēt. Šiem aspektiem pēdējos gados ir pievērsta arvien lielāka uzmanība, piemēram, tiešsaistes informācijas paneļiem vai datu glabātuvēm.