Mitä datan laatu tarkoittaa?

Usein keskustelu datan laadusta toimialallamme jää pinnalliseksi. Väärinymmärryksille on paljon tilaa. Tarjoamme tässä argumentteja keskusteluun.

Laadun viisi ulottuvuutta

Aloitetaan yleisellä laatukehyksellä, joka auttaa sijoittamaan argumentit kontekstiinsa. David Garvinin (1984) mukaan laatuun on viisi pääasiallista lähestymistapaa.

Transsendentti lähestymistapa

Transsendenttinen lähestymistapa määrittelee laadun synnynnäiseksi erinomaisuudeksi, joka on absoluuttista ja universaalia. Sen mukaan “laadukkaan datan on oltava täydellistä ja virheetöntä”. Yleinen haaste on kuitenkin se, että on vaikea konkreettisesti määritellä, millainen on “täydellinen data” ja miten se saavutetaan. Tämä lähestymistapa on silti melko yleinen tutkimuksessa. Esimerkiksi, kun puhutaan validiteetista “transsendenttisena tavoitteena”, usein joudutaan tasapainoilemaan sisäisen ja ulkoisen validiteetin välillä löytääksemme hyvän kompromissin.

Tuotepohjainen lähestymistapa

Tuoteperusteisessa lähestymistavassa laatu nähdään tuotteen oikeiden ainesosien ja ominaisuuksien – kuten meidän tapauksessamme datan – tuloksena. Esimerkiksi, “laadukkaassa aineistossa vastaajat, jotka kirjoittavat avoimiin tekstikenttiin runsaasti, on valittu huolellisesti.” Tässä tapauksessa datan laatu on selkeästi määriteltyä ja sitä voidaan mitata tarkasti. Kuitenkin tällainen käsitys laadusta on hyvin muodollinen ja siksi usein liian pinnallinen.

Käyttäjälähtöinen lähestymistapa

Käyttäjälähtöinen lähestymistapa lähtee siitä, että eri käyttäjillä voi olla erilaisia toiveita ja vaatimuksia. Tässä tapauksessa korkein mahdollinen datan laatu täyttää parhaiten nämä tarpeet. Datan laatu on siis hyvin yksilöllistä ja subjektiivista: mikä on toiselle hyvää laatua, on toiselle keskinkertaista ja kolmannelle huonoa.

Tuotantoon perustuva lähestymistapa

Tuotantoon perustuvassa määritelmässä keskitytään datan tuottamisprosessiin, tai tutkimusterminologian mukaan: siinä keskitytään metodologiaan. “Hyvää dataa kerätään noudattaen tieteellisiä standardeja ja alamme parhaita käytäntöjä”. Vaikka tämä lähestymistapa tekee datasta hyvin vertailukelpoista, se ei joskus sovi tutkijan tehtävään.

Arvopohjainen lähestymistapa

Viimeisenä mutta ei vähäisimpänä on arvoon perustuva lähestymistapa, jossa laatu nähdään sijoitetun pääoman positiivisena tuottona (tai tarkemmin sanottuna: Return On Insight). Data on laadukasta, jos sen keräämisestä aiheutuvat kustannukset ovat minimaaliset ja sen käytöstä saatava hyöty maksimaalinen. Ensisilmäyksellä tämä lähestymistapa vaikuttaa hyvältä, mutta sillä on myös huonot puolensa. Tämä lähestymistapa ei kerro paljoakaan itse datan ominaisuuksista, vaan enemmänkin käyttäjän tiedontarpeista.

Datan laadun viisi ulottuvuutta: luontainen huippuosaaminen, menetelmät ja prosessit, datan tuotto, sen ominaisuudet ja käyttäjävaatimukset.

Kilpailevat näkemykset laadusta

Kaikki nämä lähestymistavat usein johtavat kilpaileviin käsityksiin laadusta. Esimerkiksi, tiedonkerääjät voivat keskittyä menetelmiin ja tietomuotoihin, kun taas tutkimuksen ostajat painottavat yksilöllisiä tarpeitaan ja datan hyödyntämistä. Jopa saman yrityksen sisällä voi olla eriäviä näkemyksiä. Myynti- tai markkinointitiimien jäsenet voivat korostaa asiakkaiden näkökulmaa, kun taas projektipäälliköt saattavat nähdä laadun tarkasti määriteltyinä yksityiskohtina ja prosesseina. Ymmärtäminen näistä erilaisista näkökulmista voi auttaa parantamaan laatuun liittyvää viestintää ja siten itse laatua.

Vaikka kaikki olisivatkin yhtä mieltä, oikean lähestymistavan löytäminen voi silti olla haastavaa. Otetaan esimerkiksi havainnointitiedot. Vaikka tämä menetelmä saattaa olla ihanteellinen tutkimuskysymyksiin vastaamiseksi, saattaa kuitenkin ilmetä monimutkaisia tietomuotoja, puuttuvia arvoja tai poikkeavien arvojen aiheuttamia ongelmia. Tämäkin voi vaikuttaa näkemyksen tuottoon ja edellyttää erilaista lähestymistapaa.

. . . . .

Näkemyksiä

Edellisessä osassa tarkasteltiin teoreettista kehystä datan laatuun liittyvien väitteiden luokittelua varten, mikä antaa perustavanlaatuisen käsityksen tämän keskustelun eri näkökulmista. Tämän laajemman näkökulman pohjalta syvennymme nyt datan laadun käytännön näkökohtiin ja keskitymme siihen, mikä on tärkeintä ja miten voimme saavuttaa sen.

Empiirinen lähestymistapa

Richard Wang ja Diane Strong tekivät 1990-luvulla erittäin mielenkiintoisen tutkimuksen. Ensimmäisessä vaiheessa he pyysivät datan käyttäjiä listaamaan kaikki ominaisuudet, jotka tulevat heille mieleen, kun he ajattelevat datan laatua. Toisessa vaiheessa nämä ominaisuudet asetettiin tärkeysjärjestykseen. Faktorianalyysi yhdisti alkuperäiset 179 ominaisuutta pienemmäksi joukoksi datan laadun ulottuvuuksia neljään pääluokkaan.

Datan sisäinen laatu

Sisäiseen tiedon laatuun kuuluvat “tarkkuus” ja “objektiivisuus”, mikä tarkoittaa, että datan on oltava oikeaa ja puolueetonta. Vaikka nämä kaksi ulottuvuutta vaikuttavat melko itsestään selviltä, uskottavuus ja maine eivät ole niin itsestään selviä. On varsin mielenkiintoista, että ne eivät koske itse tietoja vaan viittaavat tietojen lähteeseen, joko vastaajiin tai kenttätyön suorittajaan: vastaajien on oltava todellisia ja aitoja, kun taas kenttätyön suorittajan on oltava luotettava ja vakavasti otettava.

Kontekstuaalisen datan laatu

Kontekstisidonnainen datan laatu tarkoittaa, että joitakin tiedon laadun näkökohtia voidaan arvioida vain kyseisen tehtävän valossa. Koska tämä konteksti voi vaihdella paljonkin, ei ole aina helppoa saavuttaa korkeaa kontekstisidonnaisen datan laatua. Useimmat asiayhteyteen liittyvistä ulottuvuuksista (lisäarvo, merkityksellisyys, ajantasaisuus, täydellisyys, asianmukainen tietomäärä) edellyttävät perusteellista suunnittelua ennen tutkimuksen perustamista ja toteuttamista. Sitä vastoin on todella vaikeaa parantaa asiayhteyteen liittyvän datan laatua sen jälkeen, kun se on kerätty (esim. muistutukset datan täydellisyyden parantamiseksi).

Datan edustavuus ja laatu

Datan esittämisen laatu viittaa siihen, miten tiedot on muotoiltu (tiiviisti ja johdonmukaisesti) ja missä määrin niistä voidaan johtaa merkityksiä (tulkittavuus ja ymmärrettävyys). Kuvittele verkkokyselyn datan validointirutiinit. Kun kysyt esimerkiksi vastaajien ikää, varmistat, että kaikki (johdonmukaisesti) ilmoittavat iän kokonaisina vuosina (tiiviisti) tai jopa ikäryhmissä, joista olet erityisen kiinnostunut (ymmärrettävyyden helpottamiseksi). Joka tapauksessa vastaaja ei voi antaa virheellisiä tai äärimmäisiä arvoja (tulkittavuus).

Saavutettavuuteen liittyvä datan laatu

Tämän luokan kaksi ulottuvuutta voivat olla vastakkaisia, ja siksi ne vaativat hyvää tasapainoa. Saavutettavuus tarkoittaa sitä, miten helposti ja vaivattomasti dataa voidaan hakea, kun taas pääsyn turvallisuus tarkoittaa sitä, miten pääsyä voidaan rajoittaa ja valvoa. Näihin näkökohtiin on viime vuosina kiinnitetty yhä enemmän huomiota – esimerkiksi online-dashboardeihin tai tiedon varastointiin.

Kohti erinomaista datan laatua

Kuten näet, “sisäinen datan laatu” riippuu pääasiassa oikean tietolähteen valinnasta, “kontekstuaalinen datan laatu” tutkimuksen perusteellisesta suunnittelusta, “edustuksellinen datan laatu” tietojen keräämisestä oikealla tavalla ja “saavutettavuuteen liittyvä datan laatu” tietojen oikeasta raportoinnista. Tai yleisemmin, tutkimusprosessin jokaisessa vaiheessa meidän on käsiteltävä erilaisia tehtäviä ja haasteita, jotta voimme saavuttaa parhaan mahdollisen lopputuloksen.

. Kaikkien sidosryhmien vaatimukset on ensisijaisesti otettava huomioon, on ehkä vielä tärkeämpää, että kaikki arvoketjun osatekijät edistävät kokonaislaatua tietoja kerättäessä ja käsiteltäessä. Koska tutkimuksesta on tullut monimutkainen prosessi, jossa vastuu on jaettu, meidän on varmistettava, että laatuvaatimukset täyttyvät koko prosessin ajan.

Aiheeseen liittyvät sivut

Lue lisää datan laadusta

Norstatpanel ja datan laatu

Oikeiden osallistujien löytäminen tutkimukseesi on tärkeää, jotta saamasi data on merkityksellistä ja hyödyllistä. Laajan vastaajaverkostomme ansiosta varmistamme, että saat tarvitsemasi vastaajat tutkimukseesi.

Tutustu paneeleihimme

Paneelin laatu

Laadukkaan paneelin merkitystä ei voi liikaa korostaa, kun pyritään saamaan luotettavaa dataa, joka tukee tärkeää päätöksentekoa. Mutta mikä tarkalleen ottaen määrittelee paneelin laadun ja miten sitä ylläpidetään?

Lue lisää

Datan laadun parantaminen algoritmien avulla

Tekemisemme pitäisi perustua tutkittuun tietoon . . Data on pitkäikäistä, ja siksi sen laatua olisi pidettävä tekijänä, joka maksaa itsensä takaisin myös tulevaisuudessa.

Lue lisää