Graphic of different choices

Hvordan kan algoritmer hjelpe oss med å forbedre datakvaliteten?

I denne artikkelen vil vi utforske applikasjonsfelt for algoritmer for å hjelpe oss med å forbedre datakvaliteten vår. Før vi kommer til noen konkrete eksempler, må vi skissere et viktig aspekt å huske på når vi nærmer oss datakvalitet på denne måten.

Kvalitet på algoritmer = kvalitet på data

Innsikt bør lede handlingene våre ved å gi dem en struktur. Og innsikt følger strukturen til de underliggende dataene. Per definisjon er strukturer stabile og tåler forstyrrelser. Dette er nettopp grunnen til at vi tror på verdien av høy datakvalitet. Hvis du etablerer stabile forretningsrutiner som er basert på feil data eller innsikt, vil den dårlige kvaliteten vedvare i handlingene dine. Data har lang levetid, og derfor bør kvaliteten betraktes som en ressurs som fortsetter å lønne seg i fremtiden.

Et veldig godt eksempel på dataenes levetid er treningsprøver for algoritmer. Eventuelle skjevheter i treningsdataene vil bli reprodusert om og om igjen og muligens forsterkes av algoritmen. Vi har sett mange skumle eksempler på slike maskinskjevheter tidligere og begynner så vidt å forstå implikasjonene (Har du forresten noen gang tenkt på å snakke med en datainnsamler som Norstat om treningsprøver for maskinlæringsprosjektene dine?).

Poenget vårt her er at alle algoritmer må ha høy kvalitet selv hvis de skal forbedre datakvaliteten . Omvendt, hvis algoritmene er feil, kan datakvaliteten bli enda dårligere. Og uansett hvor gode algoritmer kan fungere en gang i fremtiden, vil de bare være i stand til å hjelpe oss med å redusere et tap av kvalitet mens vi behandler det, men aldri være i stand til å gjøre elendige input til høyverdi-output.

Når det er sagt, la oss dykke ned i noen områder av hvordan slike algoritmer en dag kan brukes i undersøkelser.

Panelrekruttering

Rekruttering til et nettbasert tilgangspanel bør sees på som det første trinnet i prøvetakingsprosessen for prosjektet ditt. Hvis du ikke rekrutterer med de høyeste standardene til panelet, vil du ende opp med en partisk kilde for å trekke prosjektprøver. Det trenger ingen ytterligere forklaring at du ikke kan trekke et objektivt utvalg fra et partisk panel. Det er derfor vi er så nøye med panelrekruttering. Men hvordan kan algoritmer hjelpe oss med å forbedre rekrutteringskvaliteten?

  1. Å holde et panel i form krever svært komplekse beslutninger som kan inkludere avveininger mellom ulike parametere. For eksempel må vi holde øye med panelets sammensetning og erstatte avmeldte. Samtidig må vi forutsi de nødvendige panelstørrelsene for å takle alle forespørsler i nær fremtid. Og vi er begrenset av det tilgjengelige budsjettet og det mulige rekrutteringsvolumet i løpet av en viss tidsramme. Så hvordan bør vi fordele ressursene våre? Algoritmer kan støtte våre vurderinger ved å peke ut de viktigste demografiske og rekrutteringskanalene å fokusere på akkurat nå og hjelpe oss med å bygge et balansert panel med mindre innsats.
  2. Når folk abonnerer på panelet, må identiteten deres bekreftes, rett og slett fordi vi må sørge for at disse menneskene er den de sier de er. Hvis vi rekrutterer dem via telefon kan vi være ganske sikre på at vi faktisk snakker med en ekte person. Selv om det kanskje ikke er så enkelt som det ser ut til på telefon, er det definitivt noe du ikke kan konkludere med under den første kontakten å bekrefte identiteten til nettbrukere. I stedet må det sees på som en prosess hvor man stadig får tillit til et medlems identitet etter å ha sørget for at noen grunnleggende krav oppfylles helt i starten. Algoritmer kan hjelpe oss med å fremskynde den prosessen ved å inkludere flere datapunkter i en mye mer kompleks analyse. Slike algoritmer kan også avsløre om to forskjellige personer deler samme e-postadresse, datamaskin eller panelkonto.
  3. Verifisering av brukere går hånd i hånd med å se etter duplikater . På et svært overfladisk nivå gjøres dette ved å sammenligne personlig identifiserbar informasjon om forskjellige medlemmer, som navn, e-post eller IP-adresser. Men det er alltid verdt å se nærmere på lignende profiler, lignende responsmønstre og mulige sammenhenger mellom mistenkelige profiler eller enheter. Igjen, siden det å finne nålen i høyet kan være svært tidkrevende og komplisert, kan automatisering øke hyppigheten og sofistikeringen av slike kvalitetskontroller.

Nylig har det vært rapporter om profesjonelle undersøkelsesfarmer, der falske medlemmer abonnerer på paneler for å kreve insentiver i stor skala. Dette fenomenet samsvarer med vår erfaring om at nettpaneler gjentatte ganger blir et mål for svindlere. Vi ønsker ikke å avsløre noen detaljer, men vi har automatiserte algoritmiske rutiner på plass som forhindrer uredelige abonnementer på panelet vårt, flagger uregelmessigheter i brukerens oppførsel og rapporterer mistenkelige forsøk på å løse inn insentiver.

Panelprofilering

Mange av panelmedlemmene våre ble med for over et tiår siden, og livene deres har forandret seg i løpet av alle disse årene, selvfølgelig. Alle vil ha blitt eldre. Noen giftet seg, andre ble skilt. Noen fikk barn, mens andres barn kan ha forlatt familien allerede. Noen ble forfremmet, noen ble pensjonist. Noen flyttet til et nytt hjem, i noen tilfeller til og med til en annen by. De kan ha kjøpt nye biler og nye husholdningsapparater. De kan ha byttet bank, forsikring og telefonleverandør. Uansett hva som skjedde i livene til paneldeltakerne våre, kan vi trekke mer nøyaktige prøver ved å ha oppdatert profilinformasjon .

Vi ber allerede panelmedlemmene våre om å oppdatere alle profilvariablene sine regelmessig; så det er ikke behov for en mer sofistikert algoritme her. Imidlertid, med over 500 datapunkter for de fleste av paneldeltakerne våre, kan det hende at noe av informasjonen fortsatt ikke er nøyaktig, og vi må i utgangspunktet se etter avvikere. Mens den univariate metoden er ganske enkel (“vis meg alle medlemmer hvis alder er høyere enn 120 år”), er multivariate tilnærminger statistisk mye mer komplekse (“vis meg alle medlemmer hvis kombinasjon av forskjellige variabler er uvanlig”). Hvis du for eksempel har en 16 år gammel person med en årsinntekt på 50 000 euro, er alder og inntekt sannsynligvis innenfor normalverdiene. Imidlertid vil kombinasjonen være en synlig ytterside på spredningsplottet. Algoritmer kan bidra til å identifisere og flagge disse uteliggere .

Algoritmer kan også bidra til å estimere sannsynligheten for visse manglende verdier. For eksempel, hvis vi ønsker å spesifikt målrette mot panelmedlemmer med høy inntekt for en studie, men støter på en stor mengde paneldeltakere som ikke svarte på dette profilspørsmålet, må vi beregne inntekten deres basert på andre spørsmål. Vi kan for eksempel invitere de som eier et hus, har mer enn én bil i husstanden eller reiser veldig ofte. Analogt kan vi beregne sannsynligheten for enhver annen manglende variabel, gitt de kjente korrelasjonene med det vi har. Dette vil tillate oss å tegne prøvene våre mer presist .

Men forsiktig! Dette er et av tilfellene vi hadde i tankene da vi skrev vår ansvarsfraskrivelse i innledningen. Vi må sørge for at algoritmen ikke skader den generelle kvaliteten på prøven vår. For eksempel, hvis vi faktisk inviterer hyppige reisende i stedet for folk med høy inntekt, kan vi oppdage at utvalget vårt er partisk: overraskende nok vil de fleste av våre respondenter med høy inntekt reise ofte. Derfor må vi sørge for at kvaliteten på vår prediktive modell er god nok til å forbedre den generelle kvaliteten på forskningen vår.

Panelvedlikehold

Vi er overbevist om at det er en sterk sammenheng mellom motivasjonen til panelmedlemmene og kvaliteten på svarene deres. I våre neste eksempler støtter algoritmer vår innsats for å gi paneldeltakerne en bedre medlemsopplevelse og på denne måten bidra til datakvaliteten.

Hensikten med å delta i et panel er å ta spørreundersøkelser. Alt som øker sannsynligheten for å delta i undersøkelser bidrar også på en eller annen måte til en positiv medlemsopplevelse. En viktig faktor for å øke svarprosenten er riktig tidspunkt for å sende invitasjoner. På en mandag morgen, når e-postinnboksen din er overfylt, vil du sannsynligvis heller ignorere en undersøkelsesinvitasjon for å takle de mer presserende tingene. Derimot, rett etter lunsj, kan du fortsatt være i humør for pause, så en avledning kan være veldig velkommen. Generelt sett kan algoritmer hjelpe oss med å identifisere riktig dagtid for hver paneldeltaker og utsette varslinger til øyeblikk når de sannsynligvis vil få mer oppmerksomhet.

Denne teknikken kan gå langt utover bare å bruke dagtid og inkluderer også andre data, for eksempel bruksmønstre fra panelappen (f.eks. geolokalisering, gyroskop). For eksempel, hvis panelmedlemmer tilfeldig vrir telefonene sine i hånden mens de er hjemme, kan de oppleve nedetid og ha større sannsynlighet for å svare på push-varsler i det øyeblikket.

Prøvetaking

Nært knyttet til dette er prøvetakingsautomatisering. Lite er mer frustrerende for paneldeltakerne enn å bli invitert til en undersøkelse som allerede er stengt, enten delvis for en bestemt kvote eller helt. Av denne grunn sender du vanligvis mindre og mindre prøver mens feltet skrider frem for å nærme deg ønsket antall fullføringer uten å få overfylte kvoter. Av åpenbare grunner er dette ganske arbeidskrevende og kan også bli ganske komplekst jo flere kvoter du har. Automatisert prøvetaking kan bidra til å minimere tapet av prøve ved å sende undersøkelsesinvitasjoner i mindre og hyppigere partier enn noen menneskelig prøvetaker kan gjøre. Dette er en teknikk vi allerede bruker for eksempeldefinisjoner som ikke er altfor komplekse. I tillegg kan statistisk estimert profilinformasjon bli brukt i fremtiden, så lenge slike algoritmer ikke blir en ny kilde for feil (se ovenfor).

En annen teknikk for å redusere den negative opplevelsen av skjermbrudd og kvotefeil er ruting. Det er to grunnleggende måter å gå frem på. Den typen dumme måte, som vi sannsynligvis alle har sett et sted tidligere, er å holde respondentene i en endeløs strøm av undersøkelsesscreenere til de kvalifiserer seg. Etter å ha kommet til sluttsiden av en undersøkelse, får du umiddelbart sjansen til å kvalifisere deg i et annet spørreskjema. Vi er ganske skeptiske til denne tilnærmingen, siden den kan kompromittere motivasjonen til respondentene og oppmuntre til fartsovertredelse og annen tilfredsstillende responsatferd.

Det finnes imidlertid en smartere måte å tenke ruting på. Du inviterer panelmedlemmer på en gammeldags måte og forteller dem at en ny undersøkelse er tilgjengelig for dem. Når de klikker på lenken i invitasjonen, blir de rutet til en åpen undersøkelse som passer best med profilen deres. Selv om studien de opprinnelig ble tildelt er stengt, vil de få delta i en annen undersøkelse. Med denne rutemetoden er risikoen for å kompromittere prøvekvaliteten betydelig lavere, da kun et lite overløp (fra automatisert prøvetaking) vil bli omdirigert. Utover det vil ikke respondentene møte endeløse sekvenser av undersøkelsesscreenere, men faktisk bare svare på én undersøkelse om gangen. Uansett må du ha en smart algoritme på plass som holder styr på alle medlemsprofiler som ikke har svart enda, videre alle målgruppedefinisjoner av tilgjengelige studier og til slutt lage en perfekt match. På denne måten vil du forbedre motivasjonen til paneldeltakerne til å delta.

Under intervjuet

Hver studie er unik. Dette gjør det veldig vanskelig å definere generelle mål for kvalitetskontroll som passer alle tilfeller. Algoritmer kan imidlertid bidra til å benchmarke svarkvaliteten til et intervju med alle tidligere. Beveger en respondent seg betydelig raskere gjennom spørreskjemaet enn andre? Er svarene i tekstboksene kortere eller inneholder de tull? Og hva med variansen i rutenettspørsmål? Alle disse indikatorene kan tegne det større bildet og utløse forskjellige handlinger hvis en viss terskel er nådd. Du kan la algoritmen flagge intervjuet for manuell inspeksjon, vise en advarsel til respondenten, sette inn et rødt spørsmål for å sile ut uoppmerksomme respondenter eller fjerne hele intervjuet fra databasen, med en gang.

En annen teknikk er bevisst priming av respondenter for å ubevisst øke responskvaliteten deres. Her presenteres en mellomside med snackbart innhold før relevante spørsmål for å få respondenten inn i riktig tankesett for den kommende oppgaven. Siden denne teknikken ikke er like effektiv for alle respondenter, men kan øke lengden på et intervju, kan algoritmer bidra til å presentere de riktige primerne bare for de riktige personene i nøyaktig rett øyeblikk. Igjen, disse teknikkene må brukes nøye med hensyn til den generelle kvaliteten, da de også kan gjøre noe skade.

Til nå har vi kun snakket om nettbasert forskning, som ikke trenger ytterligere forklaring. Andre metoder for datainnsamling er imidlertid også gjenstand for digitalisering og kan dra nytte av algoritmer. Tenk for eksempel på telefonintervjuer. Algoritmer kan analysere stemmen til respondenten og utføre en sentimentanalyse under intervjuet. Denne informasjonen kan ikke bare være nyttig for å kontekstualisere informasjonen når du analyserer dataene i etterkant, men gir også verdifull tilbakemelding til intervjueren mens han snakker med respondenten. Men, som nevnt, er det veldig vanskelig å definere tiltak som passer til enhver studie.

Databehandling

Etter at alle data er samlet inn, må det vanligvis tas noen flere skritt før de kan analyseres. Det første trinnet består i å rense dataene, dvs. fjerne saker som ikke kan brukes til analyse. Gitt alle trinnene ovenfor, bør dette ikke ta for mye tid og krefter lenger. Det neste trinnet er koding av alle ustrukturerte data , spesielt åpne svar fra tekstbokser. Algoritmer kan gjenkjenne om en eksisterende kodeplan gjelder (f.eks. liste over merker i en bestemt kategori) eller få opplæring i å lære og bruke en ny kodeplan. Ulike språk kan automatisk gjenkjennes og oversettes. Til slutt kan alle data vektes for å justere mindre avvik i sammensetningen eller for å matche den til ulike enheter av grunnlaget (f.eks. om tilbakemeldingen er representativ for alle innbyggere eller alle husholdninger).

Hva så?

Noen av teknikkene beskrevet i denne artikkelen er allerede på plass, andre skal fortsatt utvikles. Og i tillegg til disse “lavthengende fruktene” er det mange andre bruksområder, der algoritmer kan lette måten vi jobber med data på.

Uansett hva vi gjør, streber vi etter best mulig kvalitet og nøler med å implementere metoder som kan kompromittere våre høye standarder. Vi vil gjerne høre fra deg hvis du vil vite mer eller har spørsmål.

Strømlinjeformet datainnsamling

Vår omfattende datainnsamlingsløsning støtter deg på alle trinn, fra å definere målgruppen din til undersøkelsesskript og resultatlevering. Administrert med ekspertise, fleksibilitet og dine spesifikke behov i tankene.

Les mer