Hvordan kan algoritmer hjælpe os med at forbedre datakvaliteten?

Kvalitet af algoritmer = kvalitet af data

Indsigt bør lede vores handlinger ved at give dem en struktur. Og indsigter følger strukturen i de underliggende data. Per definition er strukturer stabile og kan modstå forstyrrelser. Det er netop grunden til, at vi tror på værdien af høj datakvalitet. Hvis du etablerer stabile forretningsrutiner, der er baseret på fejlbehæftede data eller indsigter, vil den dårlige kvalitet fortsætte i dine handlinger. Data har en lang levetid, og derfor bør deres kvalitet betragtes som et aktiv, der bliver ved med at betale sig i fremtiden.

Et meget godt eksempel på datas lange levetid er træningseksempler til algoritmer. Enhver bias i træningsdataene vil blive reproduceret igen og igen og muligvis blive forstærket af algoritmen. Vi har tidligere set mange skræmmende eksempler på sådanne maskinbias og er kun lige begyndt at forstå konsekvenserne (har du forresten nogensinde overvejet at tale med en dataindsamler som Norstat om træningseksempler til dine machine learning-projekter?)

Vores pointe her er, at alle algoritmer selv skal have en høj kvalitet, hvis de skal forbedre datakvaliteten. Omvendt, hvis algoritmerne er fejlbehæftede, kan datakvaliteten blive endnu værre. Og uanset hvor gode algoritmerne bliver en dag i fremtiden, vil de kun kunne hjælpe os med at reducere kvalitetstabet, mens vi bearbejder det, men de vil aldrig kunne forvandle et elendigt input til et output af høj værdi.

Når det er sagt, så lad os dykke ned i nogle af de områder, hvor sådanne algoritmer en dag kan anvendes i spørgeskemaundersøgelser.

Panel-rekruttering

Rekruttering til et online adgangspanel skal ses som det første trin i prøveudtagningsprocessen for dit projekt. Hvis du ikke rekrutterer med de højeste standarder til panelet, vil du ende med en forudindtaget kilde til tegning af projektprøver. Det behøver ingen yderligere forklaring, at man ikke kan trække en upartisk stikprøve fra et partisk panel. Det er derfor, vi er så omhyggelige med panelrekrutteringen. Men hvordan kan algoritmer hjælpe os med at forbedre kvaliteten af rekrutteringen?

At holde et panel i form kræver meget komplekse beslutninger, som kan omfatte afvejninger mellem forskellige parametre. For eksempel skal vi holde øje med panelets sammensætning og erstatte afmeldinger. Samtidig er vi nødt til at forudsige de nødvendige panelstørrelser for at kunne klare alle forespørgsler i den nærmeste fremtid. Og vi er begrænset af det tilgængelige budget og den mulige rekrutteringsvolumen inden for en bestemt tidsramme. Så hvordan skal vi fordele vores ressourcer? Algoritmer kan støtte vores overvejelser ved at pege på de vigtigste demografier og rekrutteringskanaler at fokusere på lige nu og hjælpe os med at opbygge et afbalanceret panel med en mindre indsats.
Når folk abonnerer på panelet, skal deres identitet verificeres, simpelthen fordi vi er nødt til at sikre os, at disse mennesker er dem, de siger, de er. Hvis vi rekrutterer dem via telefonen, kan vi være helt sikre på, at vi rent faktisk taler med en rigtig person. Selv om det måske ikke er så let, som det ser ud til i telefonen, er verificering af onlinebrugeres identitet bestemt ikke noget, du kan afslutte under den første kontakt. I stedet skal det ses som en proces, hvor man bliver ved med at få tillid til et medlems identitet efter at have sikret sig, at nogle grundlæggende krav er opfyldt lige fra starten. Algoritmer kan hjælpe os med at fremskynde denne proces ved at inkludere flere datapunkter i en meget mere kompleks analyse. Sådanne algoritmer kan også afsløre, om to forskellige personer deler den samme e-mailadresse, computer eller panelkonto.
Verificering af brugere går hånd i hånd med kontrol af dubletter. På et meget overfladisk niveau gøres dette ved at sammenligne personligt identificerbare oplysninger om forskellige medlemmer, såsom navne, e-mail- eller IP-adresser. Men det er altid værd at kigge nærmere på lignende profiler, lignende svarmønstre og mulige forbindelser mellem mistænkelige profiler eller enheder. Igen, da det kan være meget tidskrævende og komplekst at finde nålen i høstakken, kan automatisering øge hyppigheden og raffinementet af sådanne kvalitetstjek.

For nylig har der været rapporter om professionelle undersøgelsesfarme, hvor falske medlemmer abonnerer på paneler for at kunne kræve incitamenter i stor skala. Dette fænomen stemmer overens med vores erfaring med, at onlinepaneler gentagne gange bliver et mål for svindlere. Vi ønsker ikke at afsløre nogen detaljer, men vi har automatiserede algoritmiske rutiner på plads, der forhindrer svigagtige abonnementer på vores panel, markerer uregelmæssigheder i vores brugeres adfærd og rapporterer mistænkelige forsøg på at indløse incitamenter.

Profilering af paneler

Mange af vores panelmedlemmer kom med for over et årti siden, og deres liv har selvfølgelig ændret sig i løbet af alle disse år. De vil alle være blevet ældre. Nogle blev gift, andre skilt. Nogle fik børn, mens andres børn måske allerede havde forladt familien. Nogle blev forfremmet, andre gik på pension. Nogle flyttede til et nyt hjem, i nogle tilfælde endda til en anden by. De har måske købt nye biler og nye husholdningsapparater. De har måske skiftet bank, forsikring og telefonudbyder. Uanset hvad der er sket i vores paneldeltageres liv, giver opdaterede profiloplysninger os mulighed for at udtage mere præcise stikprøver.

Vi beder allerede vores panelmedlemmer om at opdatere alle deres profilvariabler regelmæssigt, så der er ikke behov for en mere sofistikeret algoritme her. Men med over 500 datapunkter for de fleste af vores paneldeltagere er nogle af oplysningerne måske stadig ikke nøjagtige, og vi er grundlæggende nødt til at lede efter outliers. Mens den univariate metode er ret enkel (“vis mig alle medlemmer, hvis alder er højere end 120 år”), er multivariate tilgange statistisk set meget mere komplekse (“vis mig alle medlemmer, hvis kombination af forskellige variabler er usædvanlig”). Hvis du for eksempel har en 16-årig person med en årlig indkomst på 50.000 euro, ligger alder og indkomst sandsynligvis inden for normalområdet. Kombinationen vil dog være en synlig afvigelse på spredningsdiagrammet. Algoritmer kan hjælpe med at identificere og markere disse afvigelser.

Algoritmer kan også hjælpe med at estimere sandsynligheden for visse manglende værdier. Hvis vi f.eks. gerne vil målrette en undersøgelse mod panelmedlemmer med en høj indkomst, men støder på en stor mængde panelmedlemmer, som ikke har besvaret dette profilspørgsmål, er vi nødt til at estimere deres indkomst ud fra andre spørgsmål. Vi kan f.eks. invitere dem, der ejer et hus, har mere end én bil i husstanden eller rejser meget ofte. På samme måde kan vi beregne sandsynligheden for enhver anden manglende variabel, givet de kendte korrelationer med det, vi har. Det ville gøre det muligt for os at udtage vores prøver mere præcist.

Men pas på! Det er et af de tilfælde, vi havde i tankerne, da vi skrev vores ansvarsfraskrivelse i indledningen. Vi er nødt til at sikre, at algoritmen ikke skader den generelle kvalitet af vores prøve. Hvis vi f.eks. inviterer hyppigt rejsende i stedet for folk med en høj indkomst, kan vi opdage, at vores stikprøve er skæv: overraskende nok vil de fleste af vores respondenter med en høj indkomst rejse hyppigt. Derfor er vi nødt til at sikre, at kvaliteten af vores prædiktive model er god nok til at forbedre den overordnede kvalitet af vores forskning.

Vedligeholdelse af paneler

Vi er overbeviste om, at der er en stærk sammenhæng mellem vores panelmedlemmers motivation og kvaliteten af deres svar. I vores næste eksempler understøtter algoritmer vores bestræbelser på at give paneldeltagerne en bedre medlemsoplevelse og bidrager på den måde til datakvaliteten.

Formålet med at deltage i et panel er at lave undersøgelser. Alt, hvad der øger lysten til at deltage i undersøgelser, bidrager også på en eller anden måde til en positiv medlemsoplevelse. En vigtig faktor for at øge svarprocenten er det rigtige tidspunkt at sende invitationerne på. På en mandag morgen, når din indbakke er overfyldt, vil du sikkert hellere ignorere en invitation til en undersøgelse for at kunne klare de mere presserende ting. Lige efter frokost er du derimod måske stadig i humør til en pause, så en afveksling kan være meget velkommen. Generelt kan algoritmer hjælpe os med at identificere den rigtige dag for hver paneldeltager og udskyde notifikationer til tidspunkter, hvor de sandsynligvis vil få mere opmærksomhed.

Denne teknik kan gå langt videre end blot at bruge dagtimerne og også inkludere andre data, såsom brugsmønstre fra panelappen (f.eks. geolokalisering, gyroskop). Hvis panelmedlemmerne for eksempel tilfældigt vrider deres telefoner i hånden, mens de er hjemme, kan de opleve en nedetid og have en højere sandsynlighed for at reagere på push-notifikationer i det øjeblik.

Prøveudtagning

Tæt forbundet med dette er automatisering af sampling. Der er ikke noget mere frustrerende for paneldeltagere end at blive inviteret til en undersøgelse, der allerede er blevet lukket, enten delvist for en bestemt kvote eller helt. Derfor sender man typisk mindre og mindre prøver, efterhånden som feltet skrider frem, for at nærme sig det ønskede antal gennemførelser uden at få overfyldte kvoter. Af indlysende grunde er dette ret arbejdskrævende og kan også blive ret komplekst, jo flere kvoter du har. Automatiseret prøvetagning kan hjælpe med at minimere tabet af prøver ved at sende invitationer til undersøgelser i mindre og hyppigere batches, end en menneskelig prøvetager ville kunne gøre. Det er en teknik, som vi allerede anvender til eksempler på definitioner, der ikke er alt for komplekse. Derudover kan statistisk estimerede profiloplysninger bruges i fremtiden, så længe sådanne algoritmer ikke bliver en ny kilde til fejl (se ovenfor).

En anden teknik til at reducere den negative oplevelse af screen outs og kvotefejl er routing. Der er to grundlæggende måder at gøre det på. Den dumme måde, som vi sikkert alle har set et eller andet sted tidligere, er at holde respondenterne i en endeløs strøm af undersøgelsesscreenere, indtil de er kvalificerede. Når du er nået til slutsiden af en undersøgelse, får du straks mulighed for at kvalificere dig til et andet spørgeskema. Vi er ret skeptiske over for denne tilgang, da den kan kompromittere respondenternes motivation og tilskynde til hastighedsoverskridelser og anden utilfredsstillende responsadfærd.

Men der er en smartere måde at tænke routing på. Du inviterer panelmedlemmer på en gammeldags måde og fortæller dem, at en ny undersøgelse er tilgængelig for dem. Når de klikker på linket i invitationen, bliver de dirigeret til en åben undersøgelse, der bedst matcher deres profil. Selv hvis den undersøgelse, de oprindeligt blev tildelt, er lukket, vil de få lov til at deltage i en anden undersøgelse. Med denne metode til omdirigering er risikoen for at kompromittere prøvekvaliteten betydeligt lavere, da kun et lille overløb (fra automatiseret prøvetagning) omdirigeres. Derudover vil respondenterne ikke møde endeløse sekvenser af undersøgelsesscreenere, men faktisk kun svare på én undersøgelse ad gangen. Under alle omstændigheder skal du have en smart algoritme på plads, der holder styr på alle medlemsprofiler, der ikke har svaret endnu, og desuden alle målgruppedefinitioner i tilgængelige undersøgelser og til sidst laver et perfekt match. På den måde kan du øge paneldeltagernes motivation for at deltage.

Under interviewet

Hver undersøgelse er unik. Det gør det virkelig svært at definere generelle mål for kvalitetskontrol, der passer til alle tilfælde. Men algoritmer kan hjælpe med at benchmarke svarkvaliteten af et interview i forhold til alle tidligere. Bevæger en respondent sig betydeligt hurtigere gennem spørgeskemaet end andre? Er svarene i tekstbokse kortere, eller indeholder de nonsens? Og hvad med variationen i gitterspørgsmål? Alle disse indikatorer kan tegne et større billede og udløse forskellige handlinger, hvis en bestemt tærskel nås. Du kan lade algoritmen markere interviewet til manuel inspektion, vise en advarsel til respondenten, indsætte et afledningsmanøvre-spørgsmål for at frasortere uopmærksomme respondenter eller fjerne hele interviewet fra databasen med det samme.

En anden teknik er bevidst priming af respondenter for ubevidst at øge deres svarkvalitet. Her præsenteres en mellemside med snackbart indhold før relevante spørgsmål for at få respondenten i den rette stemning til den kommende opgave. Da denne teknik ikke er lige effektiv for alle respondenter, men kan forlænge interviewets længde, kan algoritmer hjælpe med at præsentere de rigtige grundspørgsmål til de rigtige personer på det helt rigtige tidspunkt. Igen skal disse teknikker anvendes omhyggeligt med hensyn til den overordnede kvalitet, da de også kan gøre skade.

Indtil nu har vi kun talt om online research, som ikke behøver yderligere forklaring. Men andre dataindsamlingsmetoder er også genstand for digitalisering og kan drage fordel af algoritmer. Tænk f.eks. på telefoninterviews. Algoritmer kan analysere respondentens stemme og udføre en stemningsanalyse under interviewet. Disse oplysninger kan ikke kun være nyttige til at kontekstualisere informationerne, når man analyserer dataene bagefter, men også give værdifuld feedback til intervieweren, mens han taler med respondenten. Men som sagt er det virkelig svært at definere mål, der passer til alle undersøgelser.

Databehandling

Når alle data er blevet indsamlet, skal der som regel tages et par skridt mere, før de kan analyseres. Det første trin består i at rense dataene, dvs. fjerne cases, der ikke kan bruges til analyse. Med alle ovenstående trin burde det ikke tage så meget tid og kræfter længere. Det næste trin er kodning af alle ustrukturerede data, især åbne svar fra tekstbokse. Algoritmer kan genkende, om en eksisterende kodeplan gælder (f.eks. en liste over mærker i en bestemt kategori) eller blive trænet til at lære og anvende en ny kodeplan. Forskellige sprog kan genkendes og oversættes automatisk. Endelig kan alle data vægtes for at justere mindre uoverensstemmelser i sammensætningen eller for at matche dem til forskellige enheder i grundlaget (f.eks. om tilbagemeldingen er repræsentativ for alle indbyggere eller alle husstande).

Og hvad så?

Nogle af de teknikker, der beskrives i denne artikel, er allerede på plads, mens andre stadig er under udvikling. Og ud over disse “lavthængende frugter” er der masser af andre anvendelsesområder, hvor algoritmer kan lette den måde, vi arbejder med data på.

Uanset hvad vi gør, stræber vi efter den bedst mulige kvalitet og tøver med at implementere metoder, der kan gå på kompromis med vores høje standarder. Vi vil meget gerne høre fra dig, hvis du vil vide mere eller har et spørgsmål.

English

Nederlands

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski

Svenska