I denne artikkelen vil vi utforske applikasjonsfelt for algoritmer for å hjelpe oss med å forbedre datakvaliteten vår. Før vi kommer til noen konkrete eksempler, må vi skissere et viktig aspekt å huske på når vi diskuterer datakvalitet på denne måten.
Innsikt bør styre handlingene våre ved å gi dem en struktur. Og innsikt følger strukturen til de underliggende dataene. Per definisjon er strukturer stabile og tåler forstyrrelser. Dette er grunnen til at vi tror på verdien av høy datakvalitet. Hvis du etablerer stabile rutiner som er basert på feil data eller innsikt, risikerer du at dårlig kvalitet preger fremtidige beslutninger. Data har lang levetid, og derfor bør kvaliteten betraktes som en ressurs som fortsetter å lønne seg i fremtiden.
Treningsdata for algoritmer er et tydelig eksempel på data med lang varighet. Eventuelle skjevheter i treningsdataene vil bli reprodusert om og om igjen og muligens bli forsterket av algoritmen. Vi har sett mange skumle eksempler på slike maskinskjevheter tidligere og begynner så vidt å forstå implikasjonene (Har du forresten noen gang tenkt på å snakke med en datainnsamler som Norstat om treningsdata for maskinlæringsprosjektene dine?).
Poenget vårt her er at alle algoritmer må ha høy kvalitet selv, hvis de skal forbedre datakvaliteten. Og omvendt, hvis algoritmene er feil, kan datakvaliteten bli enda dårligere. Og uansett hvor gode algoritmer kan fungere en gang i fremtiden, kan de bare bidra til å begrense kvalitetstapet under prosesseringen, men aldri være i stand til å forvandle dårlig input til verdifull output.
Når det er sagt, la oss utforske noen områder der slike algoritmer en dag kan tas i bruk i undersøkelser.
Rekruttering til et nettbasert forbrukerpanel bør ses på som den første fasen i sampling-prosessen for prosjektet ditt. Hvis du ikke rekrutterer med de høyeste standardene til panelet, vil du ende opp med et skjevt utvalg i fremtidige prosjekter. Det trenger ingen ytterligere forklaring at du ikke kan trekke et objektivt utvalg fra et partisk panel. Det er derfor vi er så nøye med panelrekruttering. Men hvordan kan algoritmer hjelpe oss med å forbedre rekrutteringskvaliteten?
Nylig vises det til rapporter om profesjonelle “survey farms”, der falske kontoer abonnerer på paneler for å motta insentiver i stor skala. Dette fenomenet samsvarer med vår erfaring om at nettpaneler gjentatte ganger blir et mål for svindlere. Vi ønsker ikke å avsløre noen detaljer, men vi har automatiserte algoritmiske rutiner på plass som forhindrer svindelregistreringer i panelet, fanger opp unormal atferd blant brukerne og rapporterer mistenkelige forsøk på å løse inn insentiver.
Mange av panelmedlemmene våre ble med for over et tiår siden, og livene deres har naturligvis forandret seg i løpet av disse årene. De har alle blitt eldre. Noen har giftet seg, andre har blitt skilt. Noen har fått barn, mens andres barn kan ha forlatt familien eller hjemmet allerede. Noen har blitt forfremmet, noen har pensjonert seg. Noen har flyttet til et nytt type hjem, og noen har til og med flyttet til en annen by. De kan ha kjøpt nye biler og nye husholdningsapparater. De kan ha byttet bank, forsikringsselskap og telefonleverandør. Uansett hva som har skjedd i livene til paneldeltakerne våre, kan vi trekke mer nøyaktige utvalg ved å ha oppdatert profilinformasjon.
Vi ber panelmedlemmene våre om å oppdatere alle profilvariablene sine regelmessig; så det er ikke behov for en mer avansert algoritme her. Men med over 500 datapunkter for de fleste av paneldeltakerne våre, kan det hende at noe av informasjonen er unøyaktig, og vi må se etter avvik. Mens den univariate metoden er ganske enkel (“vis meg alle medlemmer hvis alder er høyere enn 120 år”), er multivariate tilnærminger statistisk mye mer komplekse (“vis meg alle medlemmer hvis kombinasjon av forskjellige variabler er uvanlig”). Hvis du for eksempel har en 16 år gammel person med en årsinntekt på 500 000 Kr, er alder og inntekt isolert sett sannsynligvis innenfor normalverdiene. Likevel vil kombinasjonen være et tydelig avvik i et spredningsdiagram. Algoritmer kan bidra til å identifisere og flagge disse avvikene.
Algoritmer kan også bidra til å estimere sannsynligheten for visse manglende verdier. For eksempel, hvis vi ønsker å målrette oss spesifikt mot panelmedlemmer med høy inntekt for en studie, men støter på en stor mengde paneldeltakere som ikke svarte på dette profilspørsmålet, må vi beregne inntekten deres basert på andre spørsmål. Vi kan for eksempel invitere de som eier et hus, har mer enn én bil i husstanden eller reiser veldig ofte. Analogt kan vi beregne sannsynligheten for enhver annen manglende variabel, gitt de kjente korrelasjonene med det vi har. Dette vil gjøre det mulig for oss å trekke mer presise utvalg.
Men vær varsom! Dette er et av eksemplene vi nevnte innledningsvis at du må være oppmerskom på. Vi må sørge for at algoritmen ikke skader den generelle kvaliteten i utvalget våres. For eksempel, hvis vi ender opp med å invitere hyppige reisende i stedet for folk med høy inntekt, kan vi oppdage at utvalget vårt blir skjevt – siden det viser seg at mange av respondentene med høy inntekt også reiser ofte. Derfor må vi sørge for at kvaliteten på vår prediktive modell er god nok til å forbedre den generelle kvaliteten på studien vår.
Vi er overbevist om at det er en sterk sammenheng mellom motivasjonen til panelmedlemmene og kvaliteten på svarene deres. I våre neste eksempler støtter algoritmer arbeidet vårt med å gi paneldeltakerne en bedre medlemsopplevelse og på den måten bidra til bedre datakvalitet.
Hensikten med å delta i et panel er å svare på spørreundersøkelser. Alt som øker sannsynligheten for å delta i undersøkelser bidrar også til en positiv medlemsopplevelse. En viktig faktor for å øke svarprosenten er riktig tidspunkt for å sende invitasjoner. På en mandag morgen, når e-postinnboksen din er overfylt, vil du sannsynligvis heller ignorere en undersøkelsesinvitasjon for å håndtere de mer pressende oppgavene. Rett etter lunsj kan du derimot fortsatt være i humør for pause, så en avledning kan være veldig innbydende. Generelt sett kan algoritmer hjelpe oss med å identifisere riktig tidspunkt for hver paneldeltaker, og utsette påminnelser til øyeblikk der de sannsynligvis vil være mer mottakelige.
Denne teknikken kan gå langt utover bare å bruke tidspunkt på dagen, og kan også inkludere andre data, som bruksmønstre fra panelappen (f.eks. geolokalisering, gyroskop). For eksempel, hvis panelmedlemmer tilfeldig vrir telefonen sin i hånden mens de er hjemme, kan det indikere at de har pause og derfor ha større sannsynlighet for å svare på push-varsler i det øyeblikket.
Dette henger tett sammen med automatisering av sampling. Lite er mer frustrerende for paneldeltakerne enn å bli invitert til en undersøkelse som allerede er stengt, enten delvis for en bestemt kvote eller helt. Av den grunn sender man vanligvis ut stadig mindre utvalg etter hvert som feltarbeidet går fremover, for å nærme seg ønsket antall fullførte intervjuer uten å overskride kvotene. Av åpenbare grunner er dette ganske arbeidskrevende og kan også bli ganske komplekst jo flere kvoter du har. Automatisert sampling kan bidra til å minimere tap av utvalg ved å sende undersøkelsesinvitasjoner i mindre og hyppigere puljer enn noen menneskelig sampler kan klare på egenhånd. Dette er en teknikk vi allerede bruker for utvalgsdefinisjoner som ikke er altfor komplekse. I tillegg kan statistisk estimert profilinformasjon bli brukt i fremtiden, så lenge slike algoritmer ikke blir en ny kilde for feil.
En annen teknikk for å redusere den negative opplevelsen av screen-outs og kvotefeil er “routing”. Det er to grunnleggende måter å gå frem på. Den “dumme” måten, som vi sannsynligvis alle har sett et sted tidligere, er å holde respondentene i en endeløs strøm av undersøkelsesscreenere til de kvalifiserer seg. Etter å ha kommet til sluttsiden av en undersøkelse, får du umiddelbart sjansen til å kvalifisere deg i et annet spørreskjema. Vi er ganske skeptiske til denne tilnærmingen, siden den kan svekke respondentenes motivasjon og oppmuntre til forhastede svar og annen uengasjert responsatferd.
Det finnes imidlertid en smartere måte å tenke routing på. Du inviterer panelmedlemmer på en gammeldags måte og forteller dem at en ny undersøkelse er tilgjengelig for dem. Når de klikker på lenken i invitasjonen, blir de rutet til en åpen undersøkelse som passer best med profilen deres. Selv om studien de opprinnelig ble tildelt er stengt, vil de få delta i en annen undersøkelse. Med denne rutemetoden er risikoen for å svekke utvalgets kvalitet betydelig lavere, ettersom det kun er et lite overskudd (fra automatisert sampling) som blir omdirigert. Utover det vil ikke respondentene møte endeløse rekker av undersøkelsesscreenere, men faktisk bare svare på én undersøkelse om gangen. Uansett må du ha en smart algoritme på plass som holder oversikt over alle medlemsprofiler som ikke har svart, alle målgruppedefinisjoner for tilgjengelige studier, og som til slutt finner den perfekte matchen. På denne måten vil du forbedre panelistenes motivasjonen til å delta.
Hver studie er unik. Dette gjør det veldig vanskelig å definere generelle mål for kvalitetskontroll som passer i alle tilfeller. Algoritmer kan imidlertid bidra til å benchmarke svarkvaliteten til et intervju med alle tidligere svar. Svarer en respondent betydelig raskere gjennom spørreskjemaet enn andre? Er svarene i tekstboksene kortere eller inneholder de useriøse svar? Og hva med variansen i rutenettspørsmål? Alle disse indikatorene kan bidra til å tegne et større bilde og utløse ulike tiltak dersom en viss terskel er nådd. Du kan la algoritmen flagge intervjuet for manuell inspeksjon, gi en automatisk advarsel til respondenten, sette inn et “avledningsspørsmål” de må svare riktig på (eksempelvis, “velg det alternativet som beskriver et dyr”) for å sile ut uoppmerksomme respondenter, eller fjerne hele intervjuet fra databasen med en gang.
En annen teknikk er bevisst priming av respondenter for å ubevisst øke responskvaliteten deres. Her presenteres en mellomside med kortfattet innhold før relevante spørsmål for å få respondenten inn i riktig modus for den kommende oppgaven. Siden denne teknikken ikke er like effektiv for alle respondenter, og kan øke lengden på et intervju, kan algoritmer bidra til å presentere de riktige primerne bare for de riktige personene i nøyaktig rett øyeblikk. Igjen, disse teknikkene må brukes nøye med hensyn til den generelle kvaliteten, da de også kan gjøre noe skade.
Til nå har vi kun snakket om nettbasert forskning, som ikke trenger ytterligere forklaring. Andre metoder for datainnsamling er imidlertid også underlagt digitalisering og kan dra nytte av algoritmer. Tenk for eksempel på telefonintervjuer. Algoritmer kan analysere stemmen til respondenten og utføre en sentimentanalyse under intervjuet. Denne informasjonen kan ikke bare være nyttig for å kontekstualisere informasjonen når du analyserer dataene i etterkant, men gir også verdifull tilbakemelding til intervjueren mens vedkommende snakker med respondenten. Men, som nevnt, er det veldig vanskelig å definere generelle tiltak som passer til enhver studie.
Etter at alle data er samlet inn, må det vanligvis gjennomføres noen flere stef før den kan analyseres. Det første steget består av å rense dataene, dvs. fjerne svar som ikke kan brukes til analyse. Gitt at alle trinnene fra automatiseringen ovenfor er implementert, bør ikke dette være særlig tidkrevende lenger. Det neste steget er koding av all ustrukturert data , spesielt åpne svar fra tekstbokser. Algoritmer kan gjenkjenne om en eksisterende kodeliste gjelder (f.eks. liste over merker i en bestemt kategori) eller få opplæring i å lære og bruke en ny kodeliste. Ulike språk kan automatisk gjenkjennes og oversettes. Til slutt kan alle data vektes for å justere mindre avvik i sammensetningen eller for å matche den til ulike enheter av grunnlaget (f.eks. om tilbakemeldingen er representativ for alle innbyggere eller alle husholdninger).
Noen av teknikkene beskrevet i denne artikkelen er allerede på plass, andre skal fortsatt utvikles. Og i tillegg til disse “lavthengende fruktene” er det mange andre bruksområder, der algoritmer kan effektivisere måten vi jobber med data på.
Uansett hva vi gjør, streber vi etter best mulig kvalitet og nøler med å implementere metoder som kan gå på bekostning av våre høye standarder. Vi vil gjerne høre fra deg hvis du vil vite mer eller har spørsmål!
Vår omfattende løsning for datainnsamling støtter deg i alle faser, fra definering av målgruppen til spørreskjemautforming og leveranse av resultater. Administrert med ekspertise, fleksibilitet og dine spesifikke behov i tankene.