Kas ir datu kvalitāte?

Ļoti bieži, kad mēs runājam vai rakstām par datu kvalitāti mūsu nozarē, diskusija šķiet virspusēja un ne pietiekami dziļa. Ir daudz vietas pārpratumiem, kas diskusiju kopumā padara neaktuālu. Šim rakstam vajadzētu palīdzēt klasificēt argumentus diskusijā par kvalitāti un padziļināt to.

Piecas kvalitātes dimensijas

Sāksim ar vispārīgu kvalitātes sistēmu, lai atrastu argumentus to semantiskajā laukā. Saskaņā ar Deividu Garminu (Davig Darmin, 1984) pastāv piecas galvenās pieejas kvalitātei.

Transcendentālā pieeja

Saskaņā ar transcendentālo pieeju kvalitāte tiek definēta kā piemītoša izcilība, kas ir absolūta un universāla. “Augstas kvalitātes datiem jābūt perfektiem un nevainojamiem”. Vispārīga problēma ir tā, ka patiesībā ir diezgan grūti pateikt, kā izskatās “ideāli dati” un kā tos sasniegt. Tomēr šāda pieeja pētniecībā ir diezgan izplatīta. Validitāte kā “transcendentāls mērķis”, piemēram, ļoti bieži rada grūtības atrast labu kompromisu starp iekšējo un ārējo validitāti.

Uz produktu balstīta pieeja

Uz produktu balstītā pieeja uzskata, ka kvalitāti nosaka pareizas produkta sastāvdaļas un atribūti – mūsu gadījumā dati. “Augstas kvalitātes datiem izlasē ir rūpīgi atlasīti respondenti, kuri ieraksta daudz vārdu atvērtajos teksta laukos.” Šajā gadījumā datu kvalitāte ir diezgan taustāma un precīzi izmērāma. Tomēr šāda kvalitātes izpratne ir ļoti formāla un tāpēc pārāk virspusēja.

Uz lietotāju balstīta pieeja

Uz lietotāju balstīta pieeja balstās uz pieņēmumu, ka dažādiem lietotājiem var būt atšķirīgas vēlmes un prasības. Šajā gadījumā šīs vajadzības vislabāk apmierina visaugstākā datu kvalitāte. Tādējādi datu kvalitāte ir ļoti individuāla un subjektīva: augsta kvalitāte vienam lietotājam var būt vidēja vai slikta datu kvalitāte citam lietotājam.

Uz ražošanu balstīta pieeja

Uz ražošanu balstītā definīcija koncentrējas uz datu iegūšanas procesu, jeb, runājot ar pētniecības terminoloģiju, tā koncentrējas uz metodoloģiju. “Labi dati tiek vākti, ievērojot zinātniskos standartus un labāko praksi mūsu nozarē.” Lai gan šāda pieeja ļauj iegūt ļoti salīdzināmus datus, dažkārt tā neatbilst pētnieka uzdevumam.

Uz vērtību balstīta pieeja

Visbeidzot, bet ne mazāk svarīga ir uz vērtību balstīta pieeja, kas kvalitāti uzskata par pozitīvu ieguldījumu atdevi (precīzāk: Return On Insight). Šajā gadījumā datiem ir augsta kvalitāte, ja to vākšanas izmaksas ir minimālas, bet ieguvums no to izmantošanas ir maksimāls. No pirmā acu uzmetiena šī pieeja šķiet pamatota, taču tai ir arī savi trūkumi. Šāda pieeja neko daudz nepasaka par pašu datu īpašībām, bet gan vairāk par lietotāja informācijas vajadzībām.

Piecas datu kvalitātes dimensijas: piemītošā izcilība, metodoloģija un process, datu atdeve, datu īpašības un lietotāju prasības.

Konkurējoši viedokļi par kvalitāti

Visas šīs pieejas ļoti bieži noved pie konkurējošiem viedokļiem par kvalitāti. Piemēram, datu vācēji var pievērst uzmanību metodoloģijai un datu formātiem, savukārt pētījumu pircēji drīzāk koncentrējas uz savām individuālajām vajadzībām un “Return on Insight”. Pat uzņēmumos var būt dažādi viedokļi. Pārdošanas vai mārketinga nodaļas darbinieki var uzskatīt, ka klientu viedoklis ir vissvarīgākais, savukārt projektu vadītāji uzskata, ka kvalitāte ir precīzi definētas specifikācijas un procesi. Šo dažādo viedokļu apzināšanās var palīdzēt uzlabot saziņu par kvalitāti un līdz ar to uzlabot pašu kvalitāti.

Taču pat tad, ja visi ir vienisprātis, var rasties grūtības atrast pareizo pieeju. Kā piemēru ņemsim novērojumu datus. Šī metode var būt labākā izvēle, lai atbildētu uz jūsu pētījuma jautājumiem, taču jūs varat saskarties ar sarežģītu datu formātu, trūkstošām vērtībām vai noviržu problēmām. Tas atkal var ietekmēt ieskatu atdevi un prasīt atšķirīgu pieeju.

Īsāk sakot, nav viegli pateikt, kas īsti ir datu kvalitāte. Ikviens apgalvo, ka viņiem tā piemīt, bet, rūpīgāk ieskatoties, atklājas, ka attiecīgie argumenti ļoti bieži nepiepildās. Iespējams, būtu naivi tikai pieprasīt holistiskāku perspektīvu, jo starp dažādām pieejām pastāv savstarpējas pretrunas. Tas nenozīmē, ka datu kvalitāte ir tikai ilūzija vai patvaļa, bet atgādina, ka datu kvalitāte prasa zināmas pūles un nenāk pati no sevis. Jebkurā gadījumā datu kvalitāte sākas ar labu komunikāciju par to, kas tiek sagaidīts.

Cilvēki apspriež

Iepriekšējā nodaļā mēs izpētījām teorētisko ietvaru ar datu kvalitāti saistīto argumentu kategorizēšanai, tādējādi sniedzot pamatinformāciju par dažādām perspektīvām šajā diskusijā. Ņemot vērā šo plašāko perspektīvu, mēs tagad pievērsīsimies datu kvalitātes praktiskajiem aspektiem, koncentrējoties uz to, kas ir vissvarīgākais un kā mēs to varam sasniegt.

Empīriskā pieeja

Ričards Vangs (Richard Wang) un Diāne Stronga (Diane Strong) 90. gados veica ļoti interesantu pētījumu. Pirmajā posmā viņi lūdza datu patērētājiem uzskaitīt visas īpašības, kas viņiem nāk prātā, domājot par datu kvalitāti. Otrajā posmā šie atribūti tika sarindoti pēc svarīguma. Veicot faktoru analīzi, sākotnējie 179 atribūti tika konsolidēti līdz mazākam datu kvalitātes dimensiju kopumam četrās galvenajās kategorijās.

Datu kvalitāte pēc būtības

Datu iekšējā kvalitāte ietver “precizitāti” un “objektivitāti”, kas nozīmē, ka datiem jābūt pareiziem un pamatotiem. Lai gan šīs divas dimensijas šķiet diezgan pašsaprotamas, “ticamība” un “reputācija” nav tik acīmredzamas. Interesanti, ka tas neattiecas uz pašiem datiem, bet gan uz datu avotu – vai nu respondentiem, vai lauka darba veicēju: respondentiem jābūt īstiem un autentiskiem, savukārt lauka darba veicējam jābūt uzticamam un nopietnam.

Datu kontekstuālā kvalitāte

Kontekstuāla datu kvalitāte nozīmē, ka dažus datu kvalitātes aspektus var novērtēt tikai saistībā ar attiecīgo uzdevumu. Tā kā šis konteksts var būt ļoti atšķirīgs, sasniegt augstu kontekstuālo datu kvalitāti ne vienmēr ir viegli. Lielākā daļa kontekstuālo dimensiju (pievienotā vērtība, atbilstība, savlaicīgums, pilnīgums, atbilstošs datu apjoms) prasa rūpīgu plānošanu pirms pētījuma sagatavošanas un veikšanas. Un otrādi, ir ļoti grūti uzlabot kontekstuālo datu kvalitāti pēc tam, kad tie jau ir savākti (piemēram, atgādinājumi, lai uzlabotu datu pilnīgumu).

Datu reprezentācijas kvalitāte

Datu reprezentācijas kvalitāte attiecas uz veidu, kādā dati ir formatēti (kodolīgi un konsekventi), un uz to, cik lielā mērā no tiem var iegūt nozīmi (interpretējamība un saprotamības vieglums). Vienkārši iedomājieties tiešsaistes aptaujas datu validēšanas procedūras. Piemēram, uzdodot jautājumu par respondentu vecumu, pārliecinieties, ka visi (konsekventi) ieraksta vecumu veselos gados (kodolīgi) vai pat tajās vecuma grupās, kas jūs īpaši interesē (ērtāka izpratne). Jebkurā gadījumā respondentam tiks traucēts iesniegt kļūdainas vai neiespējamas vērtības (interpretējamība).

Datu pieejamības kvalitāte

Abas šīs kategorijas dimensijas var būt pretējas, tāpēc tām ir nepieciešams labs līdzsvars. Pieejamība ir saistīta ar to, cik viegli un bez piepūles var iegūt datus, savukārt piekļuves drošība ir saistīta ar to, kā piekļuvi var ierobežot un kontrolēt. Šiem aspektiem pēdējos gados ir pievērsta arvien lielāka uzmanība, piemēram, tiešsaistes informācijas paneļiem vai datu glabātuvēm.

Ceļā uz izcilu datu kvalitāti

Kā redzams, “datu kvalitāte pēc būtības” galvenokārt ir atkarīga no pareizā datu avota izvēles, “datu kontekstuālā kvalitāte” – no rūpīgas pētījuma plānošanas, “datu reprezentācijas kvalitāte” – no datu vākšanas pareizā veidā un “datu pieejamības kvalitāte” – no pareizas datu ziņošanas. Vai, vispārīgāk runājot, katrā pētniecības procesa posmā mums ir jārisina dažādi uzdevumi un problēmas, lai sasniegtu vislabāko iespējamo rezultātu.

Pirmajā sadaļā mēs apspriedām, kā dažkārt var konkurēt dažādi skatījumi uz datu kvalitāti. Lai gan joprojām ir spēkā, ka vispirms ir jāņem vērā visu ieinteresēto personu prasības, iespējams, vēl svarīgāk ir tas, ka, vācot un apstrādājot datus, katrs vērtības ķēdes posms veicinātu to kopējo kvalitāti. Tā kā pētniecība ir kļuvusi par sarežģītu procesu ar sadalītiem pienākumiem, mums ir jānodrošina, lai visā procesā tiktu ievēroti kvalitātes standarti.

Saistītās lapas

Uzziniet vairāk par datu kvalitāti, izmantojot Norstat datus

Datu kvalitāte ar Norstatpanel

Lai iegūtu vērtīgus un noderīgus datus, ir svarīgi piemeklēt pareizos dalībniekus jūsu konkrētajam pētījumam. Balstoties uz mūsu plašo respondentu tīklu Eiropā, mēs nodrošinām, lai jūs varētu piekļūt patērētājiem, kurus meklējat.

Iepazīties ar mūsu paneļiem

Paneļu kvalitāte

Meklējot uzticamus datus, kas ir būtisku lēmumu pieņemšanas pamatā, nevar pārvērtēt augstas kvalitātes paneļa nozīmi. Bet kas tieši nosaka paneļa kvalitāti un kā to saglabāt?

Lasīt vairāk

Datu kvalitātes uzlabošana ar algoritmiem

Mūsu darbībai vajadzētu būt vadmotīvam, piešķirot tai struktūru. Un atziņas ir atkarīgas no pamatā esošo datu struktūras. Pēc definīcijas struktūras ir stabilas un iztur būtiskus traucējumus. Datiem ir ilgs mūžs, tāpēc to kvalitāte jāuzskata par aktīvu, kas atmaksājas arī nākotnē.

Lasīt vairāk