Tässä artikkelissa tarkastelemme, kuinka algoritmejä voi hyödyntää datan laadun parantamisessa. Ennen kuin siirrymme konkreettisiin esimerkkeihin, on esitettävä yksi tärkeä näkökohta, joka on syytä pitää mielessä, kun datan laatua lähestytään tällä tavoin.
Tekemisemme tulisi perustua tutkittuun tietoon . . Juuri tästä syystä uskomme, että datan korkea laatu on tärkeää. Jos perustat liiketoimintasi rutiinit virheelliseen dataan tai näkemyksiin, toimintasi on hataralla pohjalla. Data on pitkäikäistä, ja siksi sen laatua olisi pidettävä tekijänä, joka maksaa itsensä takaisin myös tulevaisuudessa.
Erittäin hyvä esimerkki datan pitkäikäisyydestä ovat näytteet, joita käytetään algoritmien kouluttamiseen. Kaikki harjoitteluaineistossa esiintyvät vääristymät toistuvat yhä uudelleen ja uudelleen, ja algoritmi mahdollisesti vahvistaa niitä. Olemme nähneet monia esimerkkejä tällaisista koneellisista vääristymistä aiemmin, ja olemme vasta alkaneet ymmärtää niiden vaikutuksia.
Tarkoitamme sitä, että kaikkien algoritmien on oltava korkealaatuisia, jos niiden on tarkoitus parantaa datan laatua. Jos taas algoritmit ovat virheellisiä, tietojen laatu voi huonontua entisestään. Riippumatta siitä, kuinka hyvin algoritmit voivat joskus tulevaisuudessa toimia, ne pystyvät vain auttamaan meitä vähentämään laadun heikkenemistä prosessoinnin aikana, mutta ne eivät koskaan pysty muuttamaan surkeaa syötettä arvokkaaksi tuotokseksi.
Tarkastellaan seuraavaksi joitakin aloja, joilla tällaisia algoritmeja voidaan jonain päivänä soveltaa kyselytutkimuksessa.
Rekrytointi verkkopaneeliin olisi nähtävä projektisi näytteenottoprosessin ensimmäisenä vaiheena. Jos et rekrytoi paneeliin korkeimpia vaatimuksia noudattavia henkilöitä, päädyt puolueelliseen hankenäytteiden piirustuslähteeseen. Ei tarvitse selittää enempää, että puolueellisesta paneelista ei voi poimia puolueetonta otosta. Siksi olemme niin huolellisia paneelien rekrytoinnissa. Mutta miten algoritmit voisivat auttaa meitä parantamaan rekrytoinnin laatua?
Viime aikoina on raportoitu ammattimaisista kyselyfarmareista, joissa paneeleihin on merkitty väärennettyjä jäseniä, jotta voidaan vaatia laajamittaisia kannustimia. Tämä ilmiö vastaa kokemustamme siitä, että verkkopaneeleista tulee toistuvasti huijareiden maalitauluja. Emme halua paljastaa yksityiskohtia, mutta meillä on käytössä automaattisia algoritmisia rutiineja, jotka estävät vilpilliset tilaukset paneelissamme, merkitsevät poikkeavuudet käyttäjiemme käyttäytymisessä ja ilmoittavat epäilyttävistä yrityksistä lunastaa kannustimia.
Monet paneelin jäsenistä ovat liittyneet ryhmään yli kymmenen vuotta sitten, ja heidän elämänsä on tietysti muuttunut näiden vuosien aikana. Heistä kaikista on tullut vanhempia. Jotkut menivät naimisiin, toiset erosivat. Jotkut saivat lapsia, kun taas toisten lapset ovat saattaneet jo lähteä perheestä. Jotkut saivat ylennyksen, jotkut jäivät eläkkeelle. Jotkut muuttivat uuteen kotiin, joissakin tapauksissa jopa toiseen kaupunkiin. He ovat saattaneet ostaa uusia autoja ja uusia kodinkoneita. He ovat saattaneet vaihtaa pankkia, vakuutuksia ja puhelinoperaattoria. Mitä tahansa panelistiemme elämässä tapahtuikin, päivitettyjen profiilitietojen ansiosta voimme ottaa tarkempia otoksia.
Kehotamme jo nyt paneelin jäseniä päivittämään kaikki profiilimuuttujansa säännöllisesti, joten tässä ei tarvita kehittyneempää algoritmia. Koska useimpien panelistiemme osalta on kuitenkin yli 500 datapistettä, osa tiedoista ei välttämättä ole tarkkoja, ja meidän on periaatteessa etsittävä poikkeamia. Yksimuuttujamenetelmä on melko yksinkertainen (“näytä minulle kaikki jäsenet, joiden ikä on yli 120 vuotta”), mutta monimuuttujamenetelmät ovat tilastollisesti paljon monimutkaisempia (“näytä minulle kaikki jäsenet, joiden eri muuttujien yhdistelmä on epätavallinen”). Esimerkiksi jos kyseessä on 16-vuotias henkilö, jonka vuositulot ovat 50 000 euroa, ikä ja tulot ovat todennäköisesti normaaliarvojen sisällä. Yhdistelmä on kuitenkin näkyvä poikkeama hajontakuviossa. Algoritmit voivat auttaa tunnistamaan ja merkitsemään nämä poikkeamat.
Algoritmit voivat myös auttaa arvioimaan tiettyjen puuttuvien arvojen todennäköisyyttä. Jos esimerkiksi haluaisimme kohdistaa tutkimuksen erityisesti suurituloisiin panelisteihin, mutta kohtaamme suuren määrän panelisteja, jotka eivät vastanneet tähän profiilikysymykseen, meidän on arvioitava heidän tulonsa muiden kysymysten perusteella. Voimme esimerkiksi kutsua mukaan niitä, jotka omistavat talon, joilla on useampi kuin yksi auto taloudessaan tai jotka matkustavat hyvin usein. Vastaavasti voisimme laskea minkä tahansa muun puuttuvan muuttujan todennäköisyyden, kun otetaan huomioon tunnetut korrelaatiot sen kanssa, mitä meillä on. Näin voisimme ottaa näytteet tarkemmin.
Mutta varovasti! Tämä on yksi niistä tapauksista, jotka olimme ajatelleet kirjoittaessamme johdannossa olevaa vastuuvapauslauseketta. Meidän on varmistettava, että algoritmi ei vahingoita näytteemme yleistä laatua. Jos esimerkiksi kutsumme usein matkustavia henkilöitä suurituloisten sijaan, saatamme huomata, että otoksemme on vääristynyt: yllättäen suurin osa suurituloisista vastaajista matkustaa usein. Siksi meidän on varmistettava, että ennustemallimme laatu on riittävän hyvä parantamaan tutkimuksemme yleistä laatua.
Olemme vakuuttuneita siitä, että paneelin jäsenten motivaation ja heidän vastaustensa laadun välillä on vahva yhteys. Seuraavissa esimerkeissämme algoritmit tukevat pyrkimyksiämme tarjota panelisteille parempi jäsenyyskokemus ja edistävät näin tietojen laatua.
Paneeliin osallistumisen tarkoituksena on kyselyjen tekeminen. Kaikki se, mikä lisää kyselyihin osallistumisen miellyttävyyttä, edistää jollain tavalla myös myönteistä jäsenkokemusta. Tärkeä tekijä vastausprosentin nostamiseksi on kutsujen lähettämisen oikea ajoitus. Maanantaiaamuna, kun sähköpostilaatikkosi pursuaa, jätät luultavasti mieluummin huomiotta kyselykutsun, jotta voisit hoitaa kiireellisemmät asiat. Sitä vastoin heti lounaan jälkeen saatat olla vielä taukotuulella, joten vaihtelu voi olla erittäin tervetullutta. Yleisesti ottaen algoritmit voisivat auttaa meitä tunnistamaan oikean ajankohdan kullekin panelistille ja lykkäämään ilmoituksia ajankohtiin, jolloin ne todennäköisesti saavat enemmän huomiota.
Tämä tekniikka voi mennä paljon pidemmälle kuin pelkkä päiväajan käyttö, ja siihen voidaan sisällyttää myös muita tietoja, kuten paneelisovelluksen käyttötapoja (esim. geopaikannus, gyroskooppi). Jos esimerkiksi paneelin jäsenet vääntävät puhelimensa satunnaisesti käteen kotona ollessaan, he saattavat kokea seisokkiaikaa ja heillä on suurempi todennäköisyys vastata push-ilmoituksiin sillä hetkellä.
Tähän liittyy läheisesti näytteenoton automatisointi. Paneeliosallistujien kannalta ei ole juuri mitään turhauttavampaa kuin saada kutsu kyselyyn, joka on jo suljettu joko osittain tietyn kiintiön vuoksi tai kokonaan. Tästä syystä lähetät yleensä yhä pienempiä näytteitä kentän edetessä, jotta voit lähestyä haluttua määrä täytettyjä näytteitä ilman, että kiintiöt ylittyvät. Ilmeisistä syistä tämä on melko työlästä ja voi myös muuttua melko monimutkaiseksi, mitä enemmän kiintiöitä on. Automatisoidulla otannalla voidaan minimoida otoshävikki lähettämällä tutkimuskutsut pienemmissä ja tiheämmissä erissä kuin mitä ihmisotantaja voisi tehdä. Tätä tekniikkaa käytämme jo nyt otosmäärittelyissä, jotka eivät ole liian monimutkaisia. Lisäksi tulevaisuudessa voidaan käyttää tilastollisesti arvioituja profiilitietoja, kunhan tällaisista algoritmeista ei tule uutta virheiden lähdettä (ks. edellä).
Toinen tekniikka, jolla voidaan vähentää negatiivisia kokemuksia näytön loppumisesta ja kiintiöiden epäonnistumisesta, on reititys. On olemassa kaksi perustavaa laatua olevaa tapaa toimia. Tyhmä tapa, jonka olemme luultavasti kaikki nähneet jossain vaiheessa, on pitää vastaajat loputtomassa kyselytutkimusten seulojien virrassa, kunnes he täyttävät vaatimukset. Kun olet päässyt kyselyn loppusivulle, saat välittömästi mahdollisuuden osallistua toiseen kyselyyn. Suhtaudumme tähän lähestymistapaan varsin epäilevästi, sillä se saattaa heikentää vastaajien motivaatiota ja kannustaa ylinopeuteen ja muuhun tyydyttävään vastauskäyttäytymiseen.
Reititystä voi kuitenkin ajatella fiksummin. Kutsut paneelin jäsenet vanhaan tapaan ja kerrot heille, että heille on saatavilla uusi kyselytutkimus. Kun he klikkaavat kutsussa olevaa linkkiä, heidät ohjataan heidän profiiliaan parhaiten vastaavaan avoimeen kyselyyn. Vaikka tutkimus, johon heidät alun perin määrättiin, lopetettaisiin, he voivat osallistua toiseen tutkimukseen. Tällä reititysmenetelmällä näytteen laadun vaarantumisen riski on huomattavasti pienempi, koska vain pieni ylivuoto (automaattisesta näytteenotosta) ohjataan uudelleen. Tämän lisäksi vastaajat eivät joudu kohtaamaan loputtomia kyselyjen seulontakierroksia, vaan he vastaavat vain yhteen kyselyyn kerrallaan. Sinulla on siis oltava älykäs algoritmi, joka seuraa kaikkia jäsenprofiileja, jotka eivät ole vielä vastanneet, ja lisäksi kaikkia saatavilla olevien tutkimusten kohderyhmämäärityksiä, ja joka lopulta löytää täydellisen vastaajan. Näin panelistien vastausmotivaatio kasvaa.
Jokainen tutkimus on ainutlaatuinen. Tämän vuoksi on todella vaikeaa määritellä yleisiä laadunvalvontatoimenpiteitä, jotka sopisivat kaikkiin tapauksiin. Algoritmit voivat auttaa vastausten laadun benchmarkkaamisessa verraten vastauksia aiempiin. Eteneekö joku vastaaja huomattavasti nopeammin kyselylomakkeen läpi kuin muut? Ovatko tekstikenttien vastaukset lyhyempiä vai sisältävätkö ne hölynpölyä? Entä vastausten vaihtelu grid-tyyppisissä kysymyksissä? Kaikki nämä indikaattorit voivat muodostaa kokonaiskuvan ja käynnistää erilaisia toimia, jos tietty kynnysarvo saavutetaan. Voit antaa algoritmin merkitä haastattelun manuaalista tarkastusta varten, antaa vastaajalle varoituksen, lisätä harhaanjohtavan kysymyksen, jolla voidaan seuloa huomaamattomat vastaajat pois, tai poistaa koko haastattelu tietokannasta heti.
Toinen tekniikka on vastaajien tarkoituksellinen aktivointi, jolla pyritään alitajuisesti parantamaan vastausten laatua. Tässä tapauksessa ennen olennaisia kysymyksiä esitetään välilehti, jossa on välipaloja sisältävää sisältöä, jotta vastaaja saadaan oikeaan mielentilaan tulevaa tehtävää varten. Koska tämä tekniikka ei ole yhtä tehokas kaikkien haastateltavien kohdalla, vaan se voi pidentää haastattelun kestoa, algoritmit voivat auttaa esittämään oikeat alustukset vain oikeille henkilöille juuri oikealla hetkellä. Myös näitä tekniikoita on sovellettava varovasti kokonaislaadun kannalta, sillä niistä voi olla myös haittaa.
Tähän asti olemme puhuneet vain verkkotutkimuksesta, joka ei kaipaa lisäselvityksiä. Myös muut tiedonkeruumenetelmät ovat kuitenkin digitalisoitavissa ja voivat hyötyä algoritmeista. Ajattele esimerkiksi puhelinhaastatteluja. Algoritmit voisivat analysoida vastaajan äänen ja tehdä haastattelun aikana tunneanalyysin. Nämä tiedot voivat olla hyödyllisiä paitsi tietojen kontekstualisoinnissa, kun tietoja analysoidaan jälkikäteen, myös antaa arvokasta palautetta haastattelijalle hänen keskustellessaan vastaajan kanssa. Kuten todettiin, on kuitenkin todella vaikeaa määritellä kaikkiin tutkimuksiin sopivia toimenpiteitä.
Kun kaikki tiedot on kerätty, tarvitaan yleensä vielä muutama vaihe, ennen kuin ne voidaan analysoida. Ensimmäisessä vaiheessa tiedot puhdistetaan eli poistetaan tapaukset, joita ei voida käyttää analyysissä. Kun otetaan huomioon kaikki edellä mainitut vaiheet, tämän ei pitäisi enää vaatia liikaa aikaa ja vaivaa. Seuraavassa vaiheessa koodataan kaikki strukturoimaton tieto, erityisesti tekstilaatikoiden avoimet vastaukset. Algoritmit voivat tunnistaa, sovelletaanko olemassa olevaa koodisuunnitelmaa (esim. luetteloa tiettyyn luokkaan kuuluvista tuotemerkeistä), tai ne voidaan kouluttaa oppimaan ja soveltamaan uutta koodisuunnitelmaa. Eri kielet voidaan tunnistaa ja kääntää automaattisesti. Lopuksi kaikkia tietoja voidaan painottaa, jotta voidaan korjata pienempiä eroja koostumuksessa tai sovittaa ne eri perusyksiköihin (esim. onko palaute edustava kaikkien asukkaiden vai kaikkien kotitalouksien osalta).
Osa tässä artikkelissa kuvatuista tekniikoista on jo käytössä, osa on vielä kehitteillä. Näiden “matalalla roikkuvien hedelmien” lisäksi on paljon muitakin sovellusalueita, joilla algoritmit voivat helpottaa tapaa, jolla työskentelemme tietojen kanssa.
Pyrimme aina parhaaseen mahdolliseen laatuun ja epäröimme ottaa käyttöön menetelmiä, jotka saattavat vaarantaa korkeat standardimme. Otamme mielellämme yhteyttä, jos haluat lisätietoja tai sinulla on kysyttävää.
Kattava tiedonkeruuratkaisumme tukee sinua kaikissa vaiheissa kohderyhmän määrittelystä kyselyn käsikirjoitukseen ja tulosten toimittamiseen. Hoidetaan asiantuntevasti, joustavasti ja erityistarpeesi huomioon ottaen.