Hur kan algoritmer hjälpa oss att förbättra datakvaliteten?

Kvalitet på algoritmer = kvalitet på data

Insikt bör leda våra handlingar genom att ge dem en struktur. Och insikterna följer strukturen i de underliggande data. Per definition är strukturer stabila och tål störningar. Det är just därför som vi tror på värdet av hög datakvalitet. Om du skapar stabila affärsrutiner som baseras på bristfälliga data eller insikter kommer den dåliga kvaliteten att kvarstå i dina handlingar. Data har en lång livslängd, och därför bör dess kvalitet betraktas som en tillgång som fortsätter att betala sig i framtiden.

Ett mycket bra exempel på hur lång livslängd data har är testurval för algoritmer. Eventuell partiskhet i testdata kommer att reproduceras om och om igen och eventuellt förstärkas av algoritmen. Vi har sett många skrämmande exempel på sådana maskinbias tidigare och har precis börjat förstå konsekvenserna (förresten, har du någonsin funderat på att prata med en datainsamlare som Norstat om testurval för dina maskininlärningsprojekt?)

Vår poäng här är att alla algoritmer måste ha en hög kvalitet själva om de ska kunna förbättra datakvaliteten. Om algoritmerna däremot är bristfälliga kan datakvaliteten bli ännu sämre. Och oavsett hur bra algoritmer kan fungera någon gång i framtiden kommer de bara att kunna hjälpa oss att minska en kvalitetsförlust medan vi bearbetar den, men aldrig att kunna omvandla dålig input till högvärdig output.

Med detta sagt, låt oss dyka in i några områden där sådana algoritmer en dag kan komma att tillämpas i enkätundersökningar.

Panelrekrytering

Rekrytering till en Online Access Panel ska ses som det första steget i urvalsprocessen för ditt projekt. Om du inte rekryterar med högsta standard till panelen kommer du att få en partisk källa för att ta fram projekturval. Det behöver inte förklaras närmare att man inte kan dra ett opartiskt urval från en partisk panel. Det är därför vi är så noggranna i vår panelrekrytering. Men hur kan algoritmer hjälpa oss att förbättra rekryteringskvaliteten?

Att hålla en panel i form kräver mycket komplexa beslut som kan omfatta avvägningar mellan olika parametrar. Vi måste till exempel hålla ett öga på panelens sammansättning och ersätta avregistreringar. Samtidigt måste vi förutse vilka panelstorlekar som krävs för att hantera alla förfrågningar inom den närmaste framtiden. Och vi är begränsade av den tillgängliga budgeten och den möjliga rekryteringsvolymen under en viss tidsram. Så hur ska vi fördela våra resurser? Algoritmer kan stödja våra överväganden genom att peka ut de viktigaste demografiska faktorerna och rekryteringskanalerna att fokusera på just nu och hjälpa oss att bygga en balanserad panel med mindre ansträngning.
När människor prenumererar på panelen måste deras identitet verifieras, helt enkelt för att vi måste se till att dessa människor är de som de säger att de är. Om vi rekryterar dem via telefon kan vi vara helt säkra på att vi faktiskt talar med en riktig person. Även om det kanske inte är så enkelt som det verkar på telefon, är verifiering av onlineanvändares identitet definitivt något du inte kan avsluta under den första kontakten. Istället måste det ses som en process, där du fortsätter att få förtroende för en medlems identitet efter att ha säkerställt att vissa grundläggande krav uppfylls redan från början. Algoritmer kan hjälpa oss att påskynda den processen genom att inkludera fler datapunkter i en mycket mer komplex analys. Sådana algoritmer kan också avslöja om två olika personer delar samma e-postadress, dator eller panelkonto.
Verifiering av användare går hand i hand med kontroll av dubbletter. På en mycket ytlig nivå görs detta genom att jämföra personligt identifierbar information om olika medlemmar, såsom namn, e-postadresser eller IP-adresser. Men det är alltid värt att ta en djupare titt på liknande profiler, liknande svarsmönster och eventuella kopplingar mellan misstänkta profiler eller enheter. Eftersom det kan vara mycket tidskrävande och komplicerat att hitta nålen i höet, kan automatisering öka frekvensen och sofistikeringen av sådana kvalitetskontroller.

Nyligen har det kommit rapporter om professionella undersökningsfarmar, där falska medlemmar prenumererar på paneler för att få incitament i stor skala. Detta fenomen stämmer överens med vår erfarenhet av att onlinepaneler upprepade gånger blir måltavlor för bedragare. Vi vill inte avslöja några detaljer, men vi har automatiserade algoritmiska rutiner på plats som förhindrar bedrägliga prenumerationer på vår panel, flaggar för avvikelser i våra användares beteende och rapporterar misstänkta försök att lösa in incitament.

Profilering av paneler

Många av våra panelmedlemmar gick med för över ett decennium sedan och deras liv har naturligtvis förändrats under alla dessa år. Alla kommer att ha blivit äldre. Vissa gifte sig, andra skilde sig. Vissa fick barn, medan andras barn redan kan ha lämnat familjen. Vissa blev befordrade, andra gick i pension. Vissa flyttade till ett nytt hem, i vissa fall till och med till en annan stad. De kan ha köpt nya bilar och nya hushållsapparater. De kan ha bytt bank, försäkring och telefonoperatör. Oavsett vad som hände i våra panelmedlemmars liv kan vi med hjälp av uppdaterad profilinformation göra mer exakta urval.

Vi uppmanar redan våra panelmedlemmar att uppdatera alla sina profilvariabler regelbundet, så det finns inget behov av en mer sofistikerad algoritm här. Men med över 500 datapunkter för de flesta av våra paneldeltagare är det inte säkert att all information är korrekt och vi måste i princip leta efter avvikande värden. Medan den univariata metoden är ganska enkel (“visa mig alla medlemmar vars ålder är högre än 120 år”), är multivariata metoder statistiskt sett mycket mer komplexa (“visa mig alla medlemmar vars kombination av olika variabler är ovanlig”). Om du till exempel har en 16-årig person med en årsinkomst på 50 000 euro ligger ålder och inkomst förmodligen inom intervallet för normala värden. Kombinationen kommer dock att vara en synlig avvikelse i spridningsdiagrammet. Algoritmer kan hjälpa till att identifiera och flagga för dessa avvikande värden.

Algoritmer kan också hjälpa till att uppskatta sannolikheten för vissa saknade värden. Om vi till exempel vill rikta en studie specifikt till panelmedlemmar med hög inkomst, men stöter på ett stort antal panelmedlemmar som inte har svarat på denna profilfråga, måste vi uppskatta deras inkomst baserat på andra frågor. Vi kan till exempel bjuda in dem som äger ett hus, har mer än en bil i sitt hushåll eller reser mycket ofta. På samma sätt skulle vi kunna beräkna sannolikheten för alla andra saknade variabler, med tanke på de kända korrelationerna med det vi har. Detta skulle göra det möjligt för oss att dra våra urval mer exakt.

Men var försiktig! Detta är ett av de fall som vi hade i åtanke när vi skrev vår friskrivningsklausul i inledningen. Vi måste se till att algoritmen inte skadar den allmänna kvaliteten på vårt urval. Om vi till exempel bjuder in personer som reser ofta istället för personer med hög inkomst, kan vi upptäcka att vårt urval är snedvridet: överraskande nog kommer de flesta av våra respondenter med hög inkomst att resa ofta. Därför måste vi se till att kvaliteten på vår prediktiva modell är tillräckligt bra för att förbättra den övergripande kvaliteten på vår forskning.

Underhåll av paneler

Vi är övertygade om att det finns ett starkt samband mellan våra panelmedlemmars motivation och kvaliteten på deras svar. I våra nästa exempel stöder algoritmer våra ansträngningar att ge panelmedlemmarna en bättre medlemsupplevelse och bidrar på så sätt till datakvaliteten.

Syftet med att delta i en panel är att göra undersökningar. Allt som ökar sannolikheten för att delta i undersökningar bidrar också på något sätt till en positiv medlemsupplevelse. En viktig faktor för att öka svarsfrekvensen är rätt tidpunkt för att skicka inbjudningar. På en måndagsmorgon när din inkorg är överfull skulle du förmodligen hellre ignorera en inbjudan till en undersökning för att klara av de mer brådskande sakerna. Direkt efter lunch kan du däremot fortfarande vara sugen på att ta en paus, och då kan det vara skönt med lite omväxling. Generellt sett kan algoritmer hjälpa oss att identifiera rätt tidpunkt för varje paneldeltagare och skjuta upp meddelanden till tillfällen då de sannolikt kommer att få mer uppmärksamhet.

Denna teknik kan gå långt utöver att bara använda dagtid och även inkludera andra data, t.ex. användningsmönster från panelappen (t.ex. geolokalisering, gyroskop). Om panelmedlemmarna till exempel slumpmässigt vrider sina telefoner i handen när de är hemma, kan de uppleva en paus och ha en högre sannolikhet att svara på push-notiser i det ögonblicket.

Urval

Nära relaterat till detta är automatisering av urvalshantering. Det finns inget mer frustrerande för panelister än att bli inbjudna till en undersökning som redan har stängts, antingen delvis för en viss kvot eller helt och hållet. Av denna anledning skickar du vanligtvis mindre och mindre urval medan fältet fortskrider för att närma dig det önskade antalet slutföranden utan att få överfulla kvoter. Av uppenbara skäl är detta ganska arbetsintensivt och kan också bli ganska komplicerat ju fler kvoter du har. Automatiserad urvalshantering kan bidra till att minimera bortfallet genom att skicka inbjudningar till undersökningar i mindre och mer frekventa omgångar än vad en mänsklig samplare skulle kunna göra. Detta är en teknik som vi redan använder för urvalsdefinitioner som inte är alltför komplexa. Dessutom kan statistiskt beräknad profilinformation användas i framtiden, så länge sådana algoritmer inte blir en ny källa till brister (se ovan).

En annan teknik för att minska den negativa upplevelsen av “screen outs” och “quota fails” är routing. Det finns två grundläggande sätt att gå tillväga. Det dumma sättet, som vi förmodligen alla har sett någon gång tidigare, är att hålla respondenterna i ett oändligt flöde av screeners tills de kvalificerar sig. När du har nått slutsidan i en undersökning får du omedelbart chansen att kvalificera dig i en annan undersökning. Vi är ganska skeptiska till detta tillvägagångssätt, eftersom det kan äventyra de svarandes motivation och uppmuntra till speeding och andra satisfierande svarsbeteenden.

Men det finns ett smartare sätt att tänka kring routing. Du bjuder in panelmedlemmar på ett gammaldags sätt och berättar för dem att en ny undersökning är tillgänglig för dem. När de klickar på länken i inbjudan dirigeras de till en öppen undersökning som bäst matchar deras profil. Även om den studie som de ursprungligen tilldelades stängs kommer de att kunna delta i en annan undersökning. Med denna metod för omdirigering är risken att äventyra urvalskvaliteten betydligt lägre, eftersom endast ett litet överflöde (från automatiserad urvalshantering) kommer att omdirigeras. Utöver detta kommer respondenterna inte att möta oändliga sekvenser av enkätundersökningar, utan svarar faktiskt bara på en enkät åt gången. I vilket fall som helst måste du ha en smart algoritm på plats som håller reda på alla medlemsprofiler som inte har svarat ännu, dessutom alla målgruppsdefinitioner av tillgängliga studier och slutligen göra en perfekt matchning. På så sätt kan du öka panelmedlemmarnas motivation att delta.

Under intervjun

Varje studie är unik. Detta gör det mycket svårt att definiera allmänna mått på kvalitetskontroll som passar alla fall. Algoritmer kan dock hjälpa till att jämföra kvaliteten på en intervju med alla tidigare intervjuer. Går en respondent betydligt snabbare igenom frågeformuläret än andra? Är svaren i textrutorna kortare eller innehåller de nonsens? Och hur är det med variationen i gridfrågor? Alla dessa indikatorer kan ge en helhetsbild och utlösa olika åtgärder om ett visst tröskelvärde uppnås. Du kan låta algoritmen markera intervjun för manuell kontroll, visa en varning för respondenten, infoga en fråga som screenar ut ouppmärksamma respondentenratt eller ta bort hela intervjun från databasen, direkt.

En annan teknik är avsiktlig priming av respondenter för att omedvetet öka deras svarskvalitet. Här presenteras en mellansida med enklare innehåll före relevanta frågor för att få respondenten att tänka rätt inför den kommande uppgiften. Eftersom den här tekniken inte är lika effektiv för alla respondenter utan kan förlänga intervjun, kan algoritmer hjälpa till att presentera rätt primers endast till rätt personer i exakt rätt ögonblick. Även dessa tekniker måste användas med försiktighet med hänsyn till den övergripande kvaliteten eftersom de också kan göra viss skada.

Hittills har vi bara talat om onlineundersökningar, vilket inte behöver förklaras närmare. Men även andra metoder för datainsamling är föremål för digitalisering och kan dra nytta av algoritmer. Tänk till exempel på telefonintervjuer. Algoritmer kan analysera respondentens röst och utföra en attitydanalys under intervjun. Denna information kan inte bara vara till hjälp för att kontextualisera informationen när data analyseras i efterhand, utan kan också ge värdefull feedback till intervjuaren när han/hon pratar med respondenten. Men som sagt, det är verkligen svårt att definiera mått som passar alla studier.

Databehandling

När alla data har samlats in krävs vanligtvis ytterligare några steg innan de kan analyseras. Det första steget består i att rensa data, dvs. ta bort fall som inte kan användas för analys. Med tanke på alla steg ovan bör detta inte ta alltför mycket tid och ansträngning längre. Nästa steg är att koda alla ostrukturerade data, särskilt öppna svar från textrutor. Algoritmer kan känna igen om en befintlig kodlista gäller (t.ex. en lista över varumärken i en viss kategori) eller tränas för att lära sig och tillämpa en ny kodlista. Olika språk kan automatiskt identifieras och översättas. Slutligen kan alla uppgifter viktas för att justera mindre avvikelser i sammansättningen eller för att matcha den till olika enheter i underlaget (t.ex. om återkopplingen är representativ för alla invånare eller alla hushåll).

Och?

Vissa av de tekniker som beskrivs i denna artikel har redan införts, medan andra fortfarande är under utveckling. Och förutom dessa “lågt hängande frukter” finns det gott om andra tillämpningsområden där algoritmer kan underlätta vårt sätt att arbeta med data.

Oavsett vad vi gör strävar vi efter bästa möjliga kvalitet och tvekar att använda metoder som kan äventyra våra höga standarder. Vi skulle gärna höra från dig om du vill veta mer eller har en fråga.

English

Dansk

Nederlands

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski