Mis on andmekvaliteet?

Sageli on meie valdkonnas andmete kvaliteedist rääkides või kirjutades antud teemat ümbritsev arutelu pealiskaudne ja ilma sügavuseta. Siin on palju ruumi vääritimõistmistele, mis muudab arutelu tervikuna iganenuks. Antud artikkel peaks aitama klassifitseerida argumente kvaliteedidiskussioonis ning tuua sellesse rohkem sügavust.

Kvaliteedi viis mõõdet

Alustame üldisest kvaliteediraamistikust, et leida argumendid nende semantilisel väljal. David Garmini (1984) sõnul on kvaliteedi puhul viis peamist lähenemist.

Transtsendentne lähenemine

Transtsendentse lähenemise kohaselt määratletakse kvaliteeti kui loomupärast täiuslikkust, mis on absoluutne ja universaalne. “Kvaliteetsed andmed peavad olema täiuslikud ja veatud”. Kuid üldine probleem on see, et tegelikult on üsna raske öelda, millised on “täiuslikud andmed” ja kuidas neid saavutada. Siiski on selline lähenemine uuringute puhul üsna levinud. Kehtivus kui “transtsendentne eesmärk” näiteks toob väga sageli kaasa probleeme seoses hea kompromissi leidmisega sisemise ja välise kehtivuse vahel.

Tootepõhine lähenemisviis

Tootepõhine lähenemisviis käsitleb kvaliteeti kui toote õigete koostisosade ja omaduste – meie puhul andmete – tulemust. “Kvaliteetsed andmed on valimisse hoolikalt valitud vastajad, kes kirjutavad palju sõnu avatud tekstiväljadele.” Siin on andmete kvaliteet üsna käegakatsutav ja seda saab täpselt mõõta. Kuid selline arusaam kvaliteedist on aga väga formalistlik ja seetõttu liiga pealiskaudne.

Kasutajapõhine lähenemisviis

Kasutajapõhine lähenemisviis lähtub eeldusest, et erinevatel kasutajatel võivad olla erinevad soovid ja nõuded. Siinkohal rahuldab neid vajadusi kõige paremini andmete kõrgeim kvaliteet. Seega on andmete kvaliteet väga individuaalne ja subjektiivne: ühe kasutaja jaoks olev kõrge kvaliteet võib teise kasutaja jaoks olla keskmine või halb.

Tootmispõhine lähenemisviis

Tootmispõhine määratlus keskendub andmete tootmise protsessile, ehk uuringu terminoloogias: nad keskenduvad metoodikale. “Häid andmeid kogutakse kooskõlas teaduslike standardite ja meie tööstuse parimate praktikatega”. Kuigi selline lähenemisviis muudab andmed väga hästi võrreldavaks, ei sobi see alati uurija ülesande täitmiseks.

Väärtuspõhine lähenemisviis

Lõpuks on olemas väärtuspõhine lähenemine, mis näeb kvaliteeti kui investeeringu positiivset tasuvust (või täpsemalt: Return On Insight). Andmed on kvaliteetsed, kui nende kogumise kulud on minimaalsed, kuid nende kasutamisest saadav kasu on maksimaalne. Esmapilgul tundub selline lähenemine õiguspärane, kuid sellel on ka omad puudused. Selline lähenemisviis ei ütle palju andmete omaduste, vaid pigem kasutaja teabevajaduste kohta.

Andmekvaliteedi viis mõõdet: loomupärane täiuslikkus, metoodika ja protsessid, sisevaatluse tasuvus, andmete omadused ja kasutajanõuded.

Konkureerivad seisukohad kvaliteedi kohta

Kõik need lähenemisviisid toovad väga sageli kaasa konkureerivate seisukohate tekke kvaliteedi osas. Andmekogujad võivad näiteks pöörata tähelepanu metoodikale ja andmeformaatidele, samas kui uuringute ostjad keskenduvad pigem oma individuaalsetele vajadustele ja sisevaatluse tasuvusele. Ning isegi ettevõtete siseselt võib tekkida erinevaid vaatenurki. Müügi- või turundusosakonna liikmed võivad pidada esmatähtsaks klientide seisukohti, samas kui projektijuhid näevad kvaliteeti hästi määratletud spetsifikatsioonides ja protsessides. Nende erinevate seisukohtade teadvustamine võib aidata edendada kvaliteeti käsitlevat teabevahetust ja seega ka kvaliteeti ennast.

Kuid isegi kui kõik on ühel meelel, võib tekkida raskusi õige lähenemisviisi leidmisega. Võtame näiteks vaatlusandmed. See meetod võib olla parim valik teie uurimisküsimustele vastamiseks, kuid te võite kokku puutuda ka keeruliste andmeformaatide, puuduvate väärtuste või kõrvalekalde probleemiga. See võib jällegi avaldada mõju sisevaatluse tasuvusele ja nõuda teistsugust lähenemist.

Lühidalt öeldes ei ole lihtne öelda, mis on tegelikult andmete kvaliteet. Kõik väidavad, et see on olemas, kuid lähemal vaatlusel selgub, et vastavad argumendid ei ole vastupidavad ja ühesed. Tõenäoliselt oleks naiivne nõuda lihtsalt terviklikumat perspektiivi, sest erinevad lähenemisviisid võivad olla omavahelises vastuolus. See ei tähenda, et andmete kvaliteet on vaid näiline või juhuslik. Siiski tuletab see meile meelde, et andmete kvaliteet nõuab teatud jõupingutusi ning see ei teki iseenesest. Igal juhul algab andmete kvaliteet heast suhtlusest seoses sellega, millised on ootused.

Arutlemine

Eelmises peatükis uurisime teoreetilist raamistikku andmete kvaliteediga seotud argumentide liigitamiseks, mis annab põhilise arusaama eri vaatenurkadest selles arutelus. Selle laiema vaatenurga põhjal käsitleme nüüd andmete kvaliteedi praktilisi aspekte, keskendudes sellele, mis on kõige olulisem ja kuidas seda saavutada.

Empiiriline lähenemisviis

Richard Wang ja Diane Strong viisid 1990. aastatel läbi väga huvitava uuringu. Esimeses etapis palusid nad andmetarbijatel loetleda kõik omadused, mis neile andmete kvaliteedile mõeldes pähe tulevad. Teises etapis reastati need omadused tähtsuse järgi. Faktori analüüs koondas esialgsed 179 omadust väiksemateks andmekvaliteedi mõõtmeteks neljas põhikategoorias.

Sisemine andmete kvaliteet

Andmete sisemine kvaliteet hõlmab “täpsust” ja “objektiivsust”, mis tähendab, et andmed peavad olema korrektsed ja erapooletud. Isegi kui need kaks mõõdet tunduvad üsna iseenesestmõistetavad, siis näiteks “usutavus” ja “maine” ei ole nii ilmselged. On üsna huvitav, et need ei puuduta andmeid ennast, vaid viitavad andmete allikale, kas vastajatele või välitööde pakkujale: vastajad peavad olema tõelised ja autentsed, välitööde pakkuja aga usaldusväärne ja tõsiseltvõetav.

Kontekstiandmete kvaliteet

Kontekstipõhine andmekvaliteet tähendab, et mõningaid andmete kvaliteedi aspekte saab hinnata ainult vastava ülesande valguses. Kuna see kontekst võib olla väga erinev, ei ole kontekstiandme kõrge kvaliteedi saavutamine alati lihtne. Enamik kontekstuaalsetest mõõtmetest (lisandväärtus, asjakohasus, õigeaegsus, täielikkus, asjakohane andmehulk) nõuavad enne uuringu käivitamist ja läbiviimist põhjalikku planeerimist. Seevastu on väga raske parandada kontekstiandmete kvaliteeti, kui need on juba kogutud (nt meeldetuletused täielikkuse parandamiseks).

Andmete esitamise kvaliteet

Andmete esitamise kvaliteet viitab sellele, kuidas andmed on vormistatud (lühidalt ja järjepidevalt) ja mil määral saab neist tuletada tähendust (tõlgendatavus ja arusaadavus). Mõelge veebiküsitluse andmete valideerimise protseduuridele. Kui küsite näiteks vastajate vanust, siis veenduge, et kõik (järjekindlalt) sisestavad vanuse täis aastates (lühidalt) või kasvõi vanuserühmades, millest olete eriti huvitatud (arusaadavus). Igal juhul takistatakse sellisel juhul vastajat vigaste väärtuste esitamist (tõlgendatavus).

Andmete kättesaadavuse kvaliteet

Selle kategooria kaks mõõdet võivad olla vastandlikud ja nõuavad seetõttu head tasakaalu. Kättesaadavus tähendab seda, kui lihtsalt ja vaevata on andmeid võimalik kätte saada, samas kui juurdepääsuturve tähendab seda, kuidas juurdepääsu saab piirata ja kontrollida. Võrreldes varasemasega on nendele aspektidele hakatud pöörama üha enam tähelepanu – nt veebipõhised interaktiivsed graafikud (online dashboards) või andmelaod.

Suurepärase andmekvaliteedi suunas

Nagu näete, sõltub “sisemine andmete kvaliteet” peamiselt õige andmeallika valikust, “kontekstiandmete kvaliteet” uuringu põhjalikust planeerimisest, “andmete esitamise kvaliteet” andmete kogumisest õigel viisil ja “andmete kättesaadavuse kvaliteet” andmete korrektsest esitamisest. Või üldisemalt öeldes tuleb igas uurimisprotsessi etapis tegeleda erinevate ülesannete ja väljakutsetega, et saavutada parim võimalik tulemus.

Esimeses osas arutasime, kuidas erinevad vaated andmete kvaliteedile võivad teatud määral vastanduda. Kuigi endiselt on oluline kõikide sidusrühmade nõudeid arvesse võtta, on võib-olla veelgi olulisem see, et kõik väärtusahelas olevad sidemed aitaksid kaasa andmete kogumise ja töötlemise üldisele kvaliteedile. Kuna teadusuuringud on muutunud keeruliseks protsessiks, milles vastutus on jagatud, tuleb tagada, et kogu protsessi vältel on kvaliteedistandarditest kinni peetud.

Seotud leheküljed

Lisateave andmete kvaliteedi kohta Norstati andmetega

Andmete kvaliteet Norstat paneeliga

Õigete osalejate leidmine teie ainulaadse uuringu jaoks on oluline, et saada asjakohaseid ja kasulikke andmeid. Tänu meie ulatuslikule vastajate võrgustikule Euroopas tagame, et saate juurdepääsu otsitavatele tarbijatele.

Vaata meie paneele

Paneeli kvaliteet

Otsustusprotsessi aluseks on usaldusväärsed andmed ning seega ei saa alahinnata kvaliteetse paneeli olulisust. Kuid mis määratleb paneeli kvaliteedi ja kuidas me seda tagame?

Loe rohkem

Andmete kvaliteedi parandamine algoritmide abil

Meie tegevust peaks juhtima teadmised, andes sellele struktuuri. Teadmised järgivad aluseks olevate andmete struktuuri. Määratluse kohaselt on struktuurid stabiilsed ning peavad vastu kõikvõimalikele häiretele. Andmed on pikaealised ja seetõttu tuleks nende kvaliteeti pidada varaks, mis tasub end ära ka tulevikus.

Loe rohkem