Mitä datan laatu tarkoittaa?

Hyvin usein, kun puhumme tai kirjoitamme datan laadusta toimialallamme, keskustelu vaikuttaa pinnalliselta. Väärinymmärryksille on paljon tilaa, mikä tekee koko keskustelun hyödyttömäksi. Tämän viestin pitäisi auttaa luokittelemaan laatukeskustelun argumentteja ja syventämään sitä.

Laadun viisi ulottuvuutta

Aloitetaan yleisestä laatukehyksestä, jonka avulla argumentit voidaan sijoittaa niiden semanttiseen kenttään. David Garminin (1984) mukaan laatuun on viisi pääasiallista lähestymistapaa.

Transsendentti lähestymistapa

Transsendenttisen lähestymistavan mukaan laatu määritellään synnynnäiseksi erinomaisuudeksi, joka on absoluuttista ja universaalia. “Laadukkaan datan on oltava täydellistä ja virheetöntä”. Yleinen ongelma on, että on itse asiassa melko vaikea sanoa, miltä “täydellinen data” näyttää ja miten se saavutetaan. Tämä lähestymistapa on kuitenkin melko yleinen tutkimuksessa. Esimerkiksi validiteetti “transsendenttisenä tavoitteena” johtaa hyvin usein siihen, että sisäisen ja ulkoisen validiteetin välille on löydettävä hyvä kompromissi.

Tuotepohjainen lähestymistapa

Tuoteperusteisessa lähestymistavassa laatu nähdään tuotteen oikeiden ainesosien ja ominaisuuksien – meidän tapauksessamme datan – tuloksena. “Laadukkaassa aineistossa otokseen on valittu vastaajat, jotka kirjoittavat avoimiin tekstikenttiin runsaasti.” Tässä tapauksessa datan laatu on varsin konkreettista ja sitä voidaan mitata tarkasti. Tämä käsitys laadusta on kuitenkin hyvin formalistinen ja siksi liian pinnallinen.

Käyttäjälähtöinen lähestymistapa

Käyttäjälähtöinen lähestymistapa lähtee siitä, että eri käyttäjillä voi olla erilaisia toiveita ja vaatimuksia. Tässä tapauksessa korkein mahdollinen datan laatu täyttää parhaiten nämä tarpeet. Datan laatu on siis hyvin yksilöllistä ja subjektiivista: mikä on toiselle hyvää laatua, on toiselle keskinkertaista ja kolmannelle huonoa.

Valmistukseen perustuva lähestymistapa

Valmistukseen perustuvassa määritelmässä keskitytään datan tuottamisprosessiin, tai tutkimusterminologian mukaan: siinä keskitytään metodologiaan. “Hyvää dataa kerätään noudattaen tieteellisiä standardeja ja alamme parhaita käytäntöjä”. Vaikka tämä lähestymistapa tekee datasta hyvin vertailukelpoista, se ei joskus sovi tutkijan tehtävään.

Arvopohjainen lähestymistapa

Viimeisenä mutta ei vähäisimpänä on arvoon perustuva lähestymistapa, jossa laatu nähdään sijoitetun pääoman positiivisena tuottona (tai tarkemmin sanottuna: Return On Insight). Data on laadukasta, jos sen keräämisestä aiheutuvat kustannukset ovat minimaaliset ja sen käytöstä saatava hyöty maksimaalinen. Ensisilmäyksellä tämä lähestymistapa vaikuttaa hyvältä, mutta sillä on myös huonot puolensa. Tämä lähestymistapa ei kerro paljoakaan itse datan ominaisuuksista, vaan enemmänkin käyttäjän tiedontarpeista.

Datan laadun viisi ulottuvuutta: luontainen huippuosaaminen, menetelmät ja prosessit, datan tuotto, sen ominaisuudet ja käyttäjävaatimukset.

Kilpailevat näkemykset laadusta

Kaikki nämä lähestymistavat johtavat hyvin usein kilpaileviin näkemyksiin laadusta. Esimerkiksi tiedonkerääjät saattavat kiinnittää huomiota menetelmiin ja tietomuotoihin, kun taas tutkimuksen ostajat keskittyvät pikemminkin yksilöllisiin tarpeisiinsa ja datan tuottoon. Jopa yritysten sisällä voi olla erilaisia näkökulmia. Myynti- tai markkinointiosaston jäsenet saattavat pitää asiakkaiden näkökulmaa tärkeimpänä, kun taas projektipäälliköt näkevät laadun hyvin määriteltyinä yksityiskohtina ja prosesseina. Näiden erilaisten näkemysten tunteminen voi auttaa parantamaan laatua koskevaa viestintää ja siten parantamaan itse laatua.

Mutta vaikka kaikki olisivat samalla sivulla, oikean lähestymistavan löytäminen voi olla vaikeaa. Otetaan esimerkkinä havainnointitiedot. Tämä menetelmä voi olla paras valinta tutkimuskysymyksiin vastaamiseksi, mutta saatat myös törmätä monimutkaisten tietomuotojen, puuttuvien arvojen tai poikkeavien arvojen aiheuttamiin ongelmiin. Tämäkin voi vaikuttaa näkemyksen tuottoon ja edellyttää erilaista lähestymistapaa.

Ei siis ole helppoa sanoa, mitä datan laatu oikeastaan on. Kaikki väittävät, että heillä on sitä, mutta tarkempi tarkastelu paljastaa, että vastaavat argumentit menevät hyvin usein pieleen. Olisi luultavasti naiivia vaatia vain kokonaisvaltaisempaa näkökulmaa, sillä eri lähestymistavat ovat luonnostaan jännitteisiä. Se ei tarkoita, että datan laatu olisi vain illuusio tai mielivaltaista, mutta se muistuttaa meitä siitä, että datan laatu vaatii jonkin verran ponnistelua eikä se synny itsestään. Datan laatu alkaa joka tapauksessa selkeällä viestinnällä liittyen odotuksiin.

Ihmiset keskustelevat

Edellisessä osassa tarkasteltiin teoreettista kehystä datan laatuun liittyvien väitteiden luokittelua varten, mikä antaa perustavanlaatuisen käsityksen tämän keskustelun eri näkökulmista. Tämän laajemman näkökulman pohjalta syvennymme nyt datan laadun käytännön näkökohtiin ja keskitymme siihen, mikä on tärkeintä ja miten voimme saavuttaa sen.

Empiirinen lähestymistapa

Richard Wang ja Diane Strong tekivät 1990-luvulla erittäin mielenkiintoisen tutkimuksen. Ensimmäisessä vaiheessa he pyysivät datan käyttäjiä listaamaan kaikki ominaisuudet, jotka tulevat heille mieleen, kun he ajattelevat datan laatua. Toisessa vaiheessa nämä ominaisuudet asetettiin tärkeysjärjestykseen. Faktorianalyysi yhdisti alkuperäiset 179 ominaisuutta pienemmäksi joukoksi datan laadun ulottuvuuksia neljään pääluokkaan.

Datan sisäinen laatu

Sisäiseen tiedon laatuun kuuluvat “tarkkuus” ja “objektiivisuus”, mikä tarkoittaa, että datan on oltava oikeaa ja puolueetonta. Vaikka nämä kaksi ulottuvuutta vaikuttavat melko itsestään selviltä, uskottavuus ja maine eivät ole niin itsestään selviä. On varsin mielenkiintoista, että ne eivät koske itse tietoja vaan viittaavat tietojen lähteeseen, joko vastaajiin tai kenttätyön suorittajaan: vastaajien on oltava todellisia ja aitoja, kun taas kenttätyön suorittajan on oltava luotettava ja vakavasti otettava.

Kontekstuaalisen datan laatu

Kontekstisidonnainen datan laatu tarkoittaa, että joitakin tiedon laadun näkökohtia voidaan arvioida vain kyseisen tehtävän valossa. Koska tämä konteksti voi vaihdella paljonkin, ei ole aina helppoa saavuttaa korkeaa kontekstisidonnaisen datan laatua. Useimmat asiayhteyteen liittyvistä ulottuvuuksista (lisäarvo, merkityksellisyys, ajantasaisuus, täydellisyys, asianmukainen tietomäärä) edellyttävät perusteellista suunnittelua ennen tutkimuksen perustamista ja toteuttamista. Sitä vastoin on todella vaikeaa parantaa asiayhteyteen liittyvän datan laatua sen jälkeen, kun se on kerätty (esim. muistutukset datan täydellisyyden parantamiseksi).

Datan edustavuus ja laatu

Datan esittämisen laatu viittaa siihen, miten tiedot on muotoiltu (tiiviisti ja johdonmukaisesti) ja missä määrin niistä voidaan johtaa merkityksiä (tulkittavuus ja ymmärrettävyys). Kuvittele verkkokyselyn datan validointirutiinit. Kun kysyt esimerkiksi vastaajien ikää, varmistat, että kaikki (johdonmukaisesti) ilmoittavat iän kokonaisina vuosina (tiiviisti) tai jopa ikäryhmissä, joista olet erityisen kiinnostunut (ymmärrettävyyden helpottamiseksi). Joka tapauksessa vastaaja ei voi antaa virheellisiä tai äärimmäisiä arvoja (tulkittavuus).

Saavutettavuuteen liittyvä datan laatu

Tämän luokan kaksi ulottuvuutta voivat olla vastakkaisia, ja siksi ne vaativat hyvää tasapainoa. Saavutettavuus tarkoittaa sitä, miten helposti ja vaivattomasti dataa voidaan hakea, kun taas pääsyn turvallisuus tarkoittaa sitä, miten pääsyä voidaan rajoittaa ja valvoa. Näihin näkökohtiin on viime vuosina kiinnitetty yhä enemmän huomiota – esimerkiksi online-dashboardeihin tai tiedon varastointiin.

Kohti erinomaista datan laatua

Kuten näet, “sisäinen datan laatu” riippuu pääasiassa oikean tietolähteen valinnasta, “kontekstuaalinen datan laatu” tutkimuksen perusteellisesta suunnittelusta, “edustuksellinen datan laatu” tietojen keräämisestä oikealla tavalla ja “saavutettavuuteen liittyvä datan laatu” tietojen oikeasta raportoinnista. Tai yleisemmin, tutkimusprosessin jokaisessa vaiheessa meidän on käsiteltävä erilaisia tehtäviä ja haasteita, jotta voimme saavuttaa parhaan mahdollisen lopputuloksen.

Ensimmäisessä osassa keskustelimme siitä, miten erilaiset näkökulmat datan laatuun voivat joskus kilpailla keskenään. Vaikka on edelleen totta, että kaikkien sidosryhmien vaatimukset on ensisijaisesti otettava huomioon, on ehkä vielä tärkeämpää, että kaikki arvoketjun osatekijät edistävät kokonaislaatua tietoja kerättäessä ja käsiteltäessä. Koska tutkimuksesta on tullut monimutkainen prosessi, jossa vastuu on jaettu, meidän on varmistettava, että laatuvaatimukset täyttyvät koko prosessin ajan.

Aiheeseen liittyvät sivut

Lue lisää tietojen laadusta Norstatin tietojen avulla.

Tietojen laatu Norstat-paneelin avulla

Oikeiden osallistujien löytäminen tutkimukseesi on tärkeää, jotta saamasi data on merkityksellistä ja hyödyllistä. Laajan vastaajaverkostomme ansiosta varmistamme, että saat etsimäsi kuluttajat käsiisi.

Tutustu paneeleihimme

Paneelin laatu

Laadukkaan paneelin merkitystä ei voi liikaa korostaa, kun pyritään saamaan luotettavia tietoja, jotka tukevat tärkeää päätöksentekoa. Mutta mikä tarkalleen ottaen määrittelee paneelin laadun ja miten sitä ylläpidetään?

Lue lisää

Datan laadun parantaminen algoritmien avulla

Insightin pitäisi johtaa toimintaamme antamalla sille rakenne. Ja insight seuraa taustalla olevan datan rakennetta. Määritelmän mukaan rakenteet ovat vakaita ja kestävät häiriöitä. Datan on pitkäikäistä, ja siksi sen laatua olisi pidettävä tekijänä, joka maksaa itsensä takaisin myös tulevaisuudessa.

Lue lisää