Industrial building beside a water basin at sunset, with warm light reflecting on the water and surrounding landscape.

Kas yra duomenų kokybė?

Labai dažnai, kai kalbame ar rašome apie duomenų kokybę mūsų pramonėje, atrodo, kad diskusija yra paviršutiniška ir nepakankamai išsami. Yra daug erdvės nesusipratimams, todėl diskusija apskritai tampa neaktuali. Šis pranešimas turėtų padėti klasifikuoti argumentus diskusijoje apie kokybę ir suteikti jai daugiau gilumo.

Penki kokybės matmenys

Pradėkime nuo bendros kokybės sistemos, kad galėtume rasti argumentus jų semantiniame lauke. Pasak Davido Garmino (1984), yra penki pagrindiniai požiūriai į kokybę.

Transcendentinis požiūris

Pagal transcendentinį požiūrį kokybė apibrėžiama kaip įgimtas tobulumas, kuris yra absoliutus ir universalus. “Aukštos kokybės duomenys turi būti tobuli ir nepriekaištingi”. Bendra problema yra ta, kad iš tikrųjų gana sunku pasakyti, kaip atrodo “tobuli duomenys” ir kaip juos pasiekti. Tačiau šis metodas yra gana paplitęs moksliniuose tyrimuose. Pavyzdžiui, dėl validumo kaip “transcendentinio tikslo” labai dažnai tenka ieškoti tinkamo vidinio ir išorinio validumo kompromiso.

Produktais grindžiamas požiūris

Pagal produktu grindžiamą požiūrį kokybė suvokiama kaip tinkamų produkto sudedamųjų dalių ir savybių, mūsų atveju – duomenų, rezultatas. “Aukštos kokybės duomenys yra kruopščiai atrinkti į imtį įtraukiant respondentus, kurie daug žodžių rašo į atviro teksto laukus.” Šiuo atveju duomenų kokybė yra gana apčiuopiama ir gali būti tiksliai išmatuojama. Tačiau toks kokybės supratimas yra labai formalistinis, todėl pernelyg paviršutiniškas.

Vartotoju pagrįstas požiūris

Vartotoju grindžiamas požiūris grindžiamas prielaida, kad skirtingi naudotojai gali turėti skirtingus norus ir reikalavimus. Šiuo atveju šiuos poreikius geriausiai tenkina aukščiausia duomenų kokybė. Taigi duomenų kokybė yra labai individuali ir subjektyvi: vienam naudotojui aukšta kokybė gali būti vidutinė arba prasta duomenų kokybė kitam naudotojui.

Gamybiniu požiūriu pagrįstas požiūris

Gamybiniu požiūriu pagrįstame apibrėžime daugiausia dėmesio skiriama duomenų gavimo procesui, arba, kalbant mokslinių tyrimų terminologija, – metodologijai. “Geri duomenys renkami laikantis mokslinių standartų ir geriausios mūsų pramonės praktikos”. Nors taikant šį metodą duomenis galima labai gerai palyginti, kartais jis netinka tyrėjo užduočiai atlikti.

Verte pagrįstas požiūris

Galiausiai, bet ne mažiau svarbus yra verte pagrįstas požiūris, pagal kurį kokybė vertinama kaip teigiama investicijų grąža (tiksliau: investicijų grąža). Šiuo atveju duomenys yra aukštos kokybės, jei jų rinkimo sąnaudos yra minimalios, o nauda iš jų naudojimo – didžiausia. Iš pirmo žvilgsnio šis metodas atrodo teisėtas, tačiau jis turi ir trūkumų. Šis metodas ne tiek daug pasako apie pačias duomenų savybes, kiek apie naudotojo informacinius poreikius.

Penki duomenų kokybės aspektai: įgimta kompetencija, metodologija ir procesas, įžvalgų grąža, duomenų savybės ir naudotojų reikalavimai.

Konkuruojantys požiūriai į kokybę

Visi šie požiūriai labai dažnai lemia konkuruojančius požiūrius į kokybę. Pavyzdžiui, duomenų rinkėjai gali atkreipti dėmesį į metodologiją ir duomenų formatus, o tyrimų pirkėjai labiau orientuojasi į savo individualius poreikius ir įžvalgų grąžą. Net ir įmonėse gali būti skirtingų požiūrių. Pardavimų ar rinkodaros skyriaus darbuotojai gali manyti, kad svarbiausia yra klientų požiūris, o projektų vadovai kokybę supranta kaip aiškiai apibrėžtas specifikacijas ir procesus. Žinant šiuos skirtingus požiūrius, galima pagerinti komunikaciją apie kokybę, o kartu ir pačią kokybę.

Tačiau net jei visi sutaria, gali būti sunku rasti tinkamą požiūrį. Kaip pavyzdį paimkime stebėjimo duomenis. Šis metodas gali būti geriausias pasirinkimas siekiant atsakyti į jūsų tyrimo klausimus, tačiau galite susidurti su sudėtingų duomenų formatų, trūkstamų reikšmių ar išskirčių problema. Tai taip pat gali turėti įtakos įžvalgos grąžai ir pareikalauti kitokio požiūrio.

Trumpai tariant, nelengva pasakyti, kas iš tikrųjų yra duomenų kokybė. Visi tvirtina, kad ją turi, tačiau atidžiau pažvelgus paaiškėja, kad atitinkami argumentai labai dažnai žlunga. Tikriausiai būtų naivu vien tik raginti laikytis holistinės perspektyvos, nes tarp skirtingų požiūrių yra vidinė įtampa. Tai nereiškia, kad duomenų kokybė yra tik iliuzija ar savitikslis dalykas, bet primena, kad duomenų kokybė reikalauja tam tikrų pastangų ir neatsiranda savaime. Bet kuriuo atveju duomenų kokybė prasideda nuo gero informavimo apie tai, ko tikimasi.

Diskutuojantys žmonės

Ankstesniame skyriuje nagrinėjome teorinę sistemą, pagal kurią skirstome su duomenų kokybe susijusius argumentus, taip suteikdami pagrindą suprasti įvairias šios diskusijos perspektyvas. Atsižvelgdami į šią platesnę perspektyvą, dabar panagrinėsime praktinius duomenų kokybės aspektus, sutelkdami dėmesį į tai, kas yra svarbiausia ir kaip galime to pasiekti.

Empirinis požiūris

Ričardas Vangas (Richard Wang) ir Dijanė Strong (Diane Strong) 1990-aisiais atliko labai įdomų tyrimą. Pirmajame etape jie paprašė duomenų vartotojų išvardyti visus požymius, kurie jiems ateina į galvą galvojant apie duomenų kokybę. Antrajame etape šie požymiai buvo suskirstyti pagal svarbą. Atlikus faktorinę analizę, pirminiai 179 požymiai buvo sujungti į mažesnį duomenų kokybės matmenų rinkinį, sudarytą iš keturių pagrindinių kategorijų.

Vidinė duomenų kokybė

Vidinė duomenų kokybė apima “tikslumą” ir “objektyvumą”, t. y. duomenys turi būti teisingi ir nešališki. Nors šios dvi dimensijos atrodo gana savaime suprantamos, “Tikimumas” ir “Reputacija” nėra tokios akivaizdžios. Įdomu tai, kad jie susiję ne su pačiais duomenimis, o su duomenų šaltiniu – respondentais arba lauko tyrimo paslaugų teikėju: respondentai turi būti tikri ir autentiški, o lauko tyrimo paslaugų teikėjas – patikimas ir rimtas.

Kontekstinių duomenų kokybė

Kontekstinė duomenų kokybė reiškia, kad kai kurie duomenų kokybės aspektai gali būti vertinami tik atsižvelgiant į atitinkamą užduotį. Kadangi šis kontekstas gali labai skirtis, pasiekti aukštą kontekstinių duomenų kokybę ne visada lengva. Dauguma kontekstinių dimensijų (pridėtinė vertė, aktualumas, savalaikiškumas, išsamumas, tinkamas duomenų kiekis) reikalauja kruopštaus planavimo prieš rengiant ir atliekant tyrimą. Ir atvirkščiai, labai sunku pagerinti kontekstinių duomenų kokybę, kai jie jau surinkti (pvz., priminimais, kad duomenys būtų išsamesni).

Reprezentacinių duomenų kokybė

Atvaizdavimo duomenų kokybė – tai duomenų formatas (glaustumas ir nuoseklumas) ir tai, kokią prasmę galima išgauti iš duomenų (aiškumas ir paprastumas suprasti). Tiesiog įsivaizduokite internetinės apklausos duomenų patvirtinimo procedūras. Pavyzdžiui, klausdami apie respondentų amžių, įsitikinkite, kad visi (nuosekliai) įrašo amžių ištisais metais (glaustai) arba net tose amžiaus grupėse, kurios jus ypač domina (kad būtų lengviau suprasti). Bet kuriuo atveju respondentui bus trukdoma pateikti klaidingas ar kraštutines reikšmes (aiškinamumas).

Prieinamumas Duomenų kokybė

Abu šios kategorijos matmenys gali būti priešingi, todėl juos reikia gerai subalansuoti. Prieinamumas reiškia, kaip lengvai ir lengvai galima gauti duomenis, o prieigos saugumas – kaip galima apriboti ir kontroliuoti prieigą. Pastaraisiais metais šiems aspektams buvo skiriama vis daugiau dėmesio, pavyzdžiui, internetinės informacinės lentelės arba duomenų saugyklos.

Siekiant puikios duomenų kokybės

Kaip matote, “vidinė duomenų kokybė” daugiausia priklauso nuo tinkamo duomenų šaltinio pasirinkimo, “kontekstinė duomenų kokybė” – nuo kruopštaus tyrimo planavimo, “reprezentacinė duomenų kokybė” – nuo tinkamo duomenų rinkimo, o “prieinamumo duomenų kokybė” – nuo tinkamo duomenų pateikimo. Arba, bendriau tariant, kiekviename mokslinių tyrimų proceso etape turime spręsti skirtingas užduotis ir spręsti skirtingus uždavinius, kad pasiektume geriausią įmanomą rezultatą.

Pirmajame skyriuje aptarėme, kaip kartais gali konkuruoti skirtingi požiūriai į duomenų kokybę. Nors vis dar aktualu, kad visų pirma reikia atsižvelgti į visų suinteresuotųjų šalių reikalavimus, galbūt dar svarbiau, kad kiekviena vertės grandinės grandis prisidėtų prie bendros kokybės renkant ir apdorojant duomenis. Kadangi moksliniai tyrimai tapo sudėtingu procesu, kuriame atsakomybė yra padalinta, turime užtikrinti, kad viso proceso metu būtų laikomasi kokybės standartų.

Susiję puslapiai

Sužinokite daugiau apie duomenų kokybę naudodami "Norstat" duomenis

Duomenų kokybė naudojant Norstat duomenų grupę

Norint gauti tinkamų ir naudingų duomenų, labai svarbu rasti tinkamus dalyvius tyrimui. Remdamiesi savo plačiu respondentų tinklu Europoje, mes užtikriname, kad jums bus suteikta prieiga prie vartotojų, kurių ieškote.

Peržiūrėkite mūsų skydus

Panelio kokybė

Ieškant patikimų duomenų, kuriais grindžiamas svarbių sprendimų priėmimas, aukštos kokybės panelis – itin svarbus. Tačiau kas tiksliai apibrėžia panelio kokybę ir kaip ją išlaikyti?

Skaityti daugiau

Duomenų kokybės gerinimas naudojant algoritmus

Įžvalga turėtų vadovauti mūsų veiksmams, suteikdama jiems struktūrą. O įžvalgos priklauso nuo pagrindinių duomenų struktūros. Pagal apibrėžimą struktūros yra stabilios ir atsparios trikdžiams. Duomenys yra ilgaamžiai, todėl jų kokybė turėtų būti laikoma turtu, kuris atsiperka ateityje.

Skaityti daugiau