Hoe kunnen algoritmes ons helpen om de kwaliteit van data te verbeteren?

Kwaliteit van algoritmen = kwaliteit van data

Inzicht moet onze acties leiden door ze een structuur te geven. En inzichten volgen de structuur van de onderliggende data. Structuren zijn per definitie stabiel en bestand tegen verstoringen. Dat is precies de reden waarom wij geloven in de waarde van hoge gegevenskwaliteit. Als je stabiele bedrijfsroutines opzet die gebaseerd zijn op gebrekkige gegevens of inzichten, zal de lage kwaliteit blijven voortbestaan in je handelingen. Data heeft een lange levensduur, daarom moet de kwaliteit ervan worden beschouwd als een bezit dat zich blijft uitbetalen in de toekomst.

Een erg goed voorbeeld van de duurzaamheid van gegevens zijn trainingsvoorbeelden voor algoritmes. Elke bias in de trainingsgegevens zal steeds opnieuw worden gereproduceerd en mogelijk worden versterkt door het algoritme. We hebben veel angstaanjagende voorbeelden gezien van dergelijke machine-biases in het verleden en beginnen nu pas de implicaties ervan te begrijpen. (Overigens, heb je er ooit over nagedacht om met een datacollector zoals Norstat te praten over trainingsvoorbeelden voor je machine learning projecten?)

Ons punt hier is dat alle algoritmen zelf van hoge kwaliteit moeten zijn als ze de datakwaliteit willen verbeteren. Omgekeerd, als algoritmes gebreken vertonen, kan de gegevenskwaliteit nog slechter worden. En hoe goed algoritmes ook ooit in de toekomst zullen werken, ze zullen alleen in staat zijn om ons te helpen bij het verminderen van het verlies aan kwaliteit tijdens de verwerking ervan, maar zullen nooit in staat zijn om slechte input om te zetten in hoogwaardige output.

Dat gezegd hebbende, laten we eens kijken naar enkele gebieden waarin dergelijke algoritmes op een dag kunnen worden toegepast in enquêteonderzoek.

Werving van panels

Het werven voor een Online Toegangspanel moet worden gezien als de eerste fase van het steekproces voor je project. Als je niet met de hoogste normen werft voor het panel, eindig je met een bevooroordeelde bron voor het trekken van projectsteekproeven. Het behoeft geen verdere uitleg dat je geen onbevooroordeelde steekproef kunt trekken uit een bevooroordeeld panel. Daarom zijn we zo zorgvuldig bij het werven van panelleden. Maar hoe kunnen algoritmes ons helpen om de kwaliteit van de werving te verbeteren?

Het onderhouden van een panel vereist zeer complexe beslissingen, die het afwegen van verschillende parameters kunnen omvatten. Bijvoorbeeld, we moeten de samenstelling van het panel in de gaten houden en uitschrijvingen vervangen. Tegelijkertijd moeten we de benodigde panelgroottes voorspellen om alle verzoeken in de nabije toekomst aan te kunnen. En we worden beperkt door het beschikbare budget en het haalbare wervingsvolume gedurende een bepaalde periode. Dus hoe moeten we onze middelen toewijzen? Algoritmes kunnen onze overwegingen ondersteunen door de belangrijkste demografische data en wervingskanalen aan te wijzen waarop we ons nu moeten richten, en ze kunnen ons helpen bij het opbouwen van een gebalanceerd panel met minder inspanning.
Zodra mensen zich abonneren op het panel, moet hun identiteit worden geverifieerd, simpelweg omdat we er zeker van moeten zijn dat deze mensen zijn wie ze zeggen dat ze zijn. Als we hen werven via de telefoon, kunnen we er redelijk zeker van zijn dat we daadwerkelijk met een echt persoon spreken. Hoewel het nog steeds niet zo eenvoudig is als het lijkt aan de telefoon, is het verifiëren van de identiteit van online gebruikers zeker iets wat je niet kunt concluderen tijdens het eerste contact. In plaats daarvan moet het worden gezien als een proces, waarbij je steeds geleidelijk vertrouwen opbouwt in de identiteit van een lidnadat aan enkele basisvereisten aan het begin is voldaan. Algoritmes kunnen ons helpen om dat proces te versnellen door meer datapunten op te nemen in een veel complexere analyse. Dergelijke algoritmes kunnen ook onthullen of twee verschillende personen hetzelfde e-mailadres, dezelfde computer of hetzelfde panelaccount delen
Het verifiëren van gebruikers gaat hand in hand met het controleren op duplicaten. Op een heel oppervlakkig niveau gebeurt dit door het vergelijken van persoonlijk identificeerbare informatie van verschillende leden, zoals namen, e-mailadressen of IP-adressen. Maar het is altijd de moeite waard om een diepere blik te werpen op vergelijkbare profielen, vergelijkbare reactiepatronen en mogelijke verbanden tussen verdachte profielen of apparaten. Nogmaals, omdat het vinden van een naald in een hooiberg erg tijdrovend en complex kan zijn, kan automatisering de frequentie en verfijning van dergelijke kwaliteitscontroles verhogen.

Onlangs zijn er meldingen geweest over professionele enquêtebedrijven, waar nep-leden zich abonneren op panels om op grote schaal beloningen te claimen Dit fenomeen komt overeen met onze ervaring dat online panels herhaaldelijk een doelwit worden van fraudeurs We willen geen details onthullen, maar we hebben geautomatiseerde algoritmes die frauduleuze abonnementen op ons platform voorkomen, afwijkend gedrag van gebruikers signaleren en verdachte pogingen om beloningen in te wisselen melden

Paneel Profilering

Veel van onze panelleden zijn meer dan tien jaar geleden lid geworden en hun levensstijl is in al die jaren natuurlijk veranderd. Ze zullen allemaal ouder zijn geworden. Sommigen trouwden, anderen scheidden. Sommigen kregen kinderen, terwijl de kinderen van anderen het gezin misschien al hebben verlaten. Sommigen kregen een promotie, sommigen gingen met pensioen. Sommigen verhuisden naar een nieuw huis, in sommige gevallen zelfs naar een andere stad. Ze hebben misschien nieuwe auto’s en nieuwe huishoudelijke apparaten gekocht. Ze zijn misschien van bank, verzekering of telefoonprovider veranderd. Wat er ook gebeurd is in het leven van onze panelleden, met bijgewerkte profielinformatie kunnen we nauwkeurigere steekproeven trekken.

We vragen onze panelleden al om al hun profielvariabelen regelmatig bij te werken; er is hier dus geen behoefte aan een geavanceerder algoritme. Met meer dan 500 datapunten voor de meeste van onze panelleden, is het echter mogelijk dat een deel van de informatie nog steeds niet nauwkeurig is en dat we in principe op zoek moeten gaan naar uitschieters. Hoewel de univariate methode vrij eenvoudig is (“laat me alle leden zien die ouder zijn dan 120 jaar”), zijn multivariate benaderingen statistisch gezien veel complexer (“laat me alle leden zien waarvan de combinatie van verschillende variabelen ongebruikelijk is”). Als je bijvoorbeeld een 16-jarige persoon hebt met een jaarinkomen van 50.000 euro, dan liggen leeftijd en inkomen waarschijnlijk binnen het bereik van normale waarden. De combinatie zal echter een zichtbare uitschieter zijn op de spreidingsdiagram. Algoritmen kunnen helpen om deze uitschieters te identificeren en te markeren.

Algoritmen kunnen ook helpen om de waarschijnlijkheid van bepaalde ontbrekende waarden in te schatten. Als we ons bijvoorbeeld specifiek willen richten op panelleden met een hoog inkomen voor een onderzoek, maar een groot aantal panelleden tegenkomen die deze profielvraag niet hebben beantwoord, moeten we hun inkomen schatten op basis van andere vragen. We kunnen bijvoorbeeld mensen uitnodigen die een huis bezitten, meer dan één auto in hun huishouden hebben of heel vaak reizen. Op dezelfde manier kunnen we de waarschijnlijkheid berekenen van elke andere ontbrekende variabele, gegeven de bekende correlaties met wat we hebben. Dit zou ons in staat stellen omonze steekproeven nauwkeuriger te maken..

Maar voorzichtig! Dit is een van de cases die we in gedachten hadden bij het schrijven van onze disclaimer in de inleiding. We moeten ervoor zorgen dat het algoritme de algemene kwaliteit van ons steekproef niet schaadt. Als we bijvoorbeeld frequente reizigers uitnodigen in plaats van mensen met een hoog inkomen, kunnen we ontdekken dat onze steekproef bevooroordeeld is: verrassend genoeg zullen de meeste van onze respondenten met een hoog inkomen vaak reizen. Daarom moeten we ervoor zorgen dat de kwaliteit van ons voorspellende model goed genoeg is om de algehele kwaliteit van ons onderzoek te verbeteren.

Panel Onderhoud

We zijn ervan overtuigd dat er een sterk verband bestaat tussen de motivatie van onze panelleden en de kwaliteit van hun antwoorden. In onze volgende voorbeelden ondersteunen algoritmes onze inspanningen om panelleden een betere lidmaatschapservaring te geven en op deze manier een bijdrage te leveren aan de datakwaliteit.

Het doel van deelname aan een panel is het invullen van enquêtes. Alles wat de aantrekkelijkheid van deelname aan enquêtes verhoogt, draagt op de een of andere manier ook bij tot een positieve lidmaatschapservaring. Een belangrijke factor om de respons te verhogen is de juiste timing van het versturen van uitnodigingen. Op een maandagochtend, wanneer je e-mail inbox overvol is, negeer je waarschijnlijk liever een uitnodiging voor een enquête om je bezig te kunnen houden met de meer dringende zaken. Vlak na de lunch daarentegen heb je misschien nog steeds zin in een pauze, dus een afleiding kan heel welkom zijn. In het algemeen zouden algoritmes ons kunnen helpen om de juiste dag te bepalen voor elk panellid en meldingen uit te stellen tot momenten waarop ze waarschijnlijk meer aandacht zullen krijgen.

Deze techniek kan veel verder gaan dan alleen het gebruik van de dag en ook andere gegevens bevatten, zoals gebruikspatronen van de paneel-app (bijvoorbeeld geolocatie, gyroscoop). Als panelleden bijvoorbeeld willekeurig hun telefoon in de hand draaien terwijl ze thuis zijn, ervaren ze misschien een onderbreking en zijn ze meer geneigd om op dat moment te reageren op pushmeldingen.

Steekproef

Nauw verwant hiermee is steekproef automatisering. Weinig is frustrerender voor panelleden dan uitgenodigd te worden voor een enquête die al is afgesloten, hetzij gedeeltelijk voor een bepaald quotum, hetzij volledig. Daarom stuur je meestal steeds kleinere voorbeelden terwijl het onderzoek vordert, om het gewenste aantal voltooide enquêtes te bereiken zonder dat je de limiet overschrijdt Om voor de hand liggende redenen is dit behoorlijk arbeidsintensief en kan het ook behoorlijk complex worden naarmate je meer quota hebt. Geautomatiseerde steekproeftrekking kan helpen om het verlies van steekproeven te minimaliseren door uitnodigingen voor enquêtes in kleinere en frequentere groepen te verzenden dan een menselijke iemand zou kunnen doen. Dit is een techniek die we al toepassen voor voorbeelddefinities die niet al te complex zijn. Daarnaast kunnen in de toekomst statistisch geschatte profielinformatie worden gebruikt, zolang zulke algoritmes geen nieuwe bron van fouten worden (zie hierboven)

Een andere techniek om de negatieve ervaring van schermuitschakelingen en quotamislukkingen te verminderen, is routering Er zijn twee fundamentele manieren om het aan te pakken. Die domme manier, die we waarschijnlijk allemaal ergens in het verleden hebben gezien, is om respondenten eindeloos door enquêtevragen te laten gaan totdat ze in aanmerking komen Als je de eindpagina van een enquête bereikt, krijg je onmiddellijk de kans om je te kwalificeren voor een andere vragenlijst. We zijn nogal sceptisch over deze aanpak, omdat het de motivatie van respondenten in gevaar kan brengen en overtredingen en ander bevredigend responsgedrag kan aanmoedigen.

Er is echter een slimmere manier om over routing na te denken. Je nodigt panelleden op een ouderwetse manier uit en vertelt hen dat er een nieuwe enquête voor hen beschikbaar is. Zodra ze op de link in de uitnodiging klikken, worden ze naar een open enquête geleid die het beste bij hun profiel past. Zelfs als het onderzoek waaraan ze oorspronkelijk waren toegewezen is afgesloten, mogen ze deelnemen aan een ander onderzoek. Met deze methode van routeren is het risico dat de kwaliteit van de steekproef in het gedrang komt aanzienlijk lager, omdat alleen een kleine overloop wordt omgeleid. Bovendien worden respondenten niet geconfronteerd met eindeloze reeksen enquêtescreens, maar beantwoorden ze slechts één enquête per keer. Natuurlijk moet je een slim algoritme hebben dat alle ledenprofielen bijhoudt die nog niet hebben gereageerd. Daarnaast moet het ook alle doelgroepsdefinities van beschikbare studies beheren en uiteindelijk de perfecte match maken. Op deze manier kun je de motivatie verbeteren van panelleden om deel te nemen.

Tijdens het interview

Elk onderzoek is uniek. Dit maakt het echt moeilijk om algemene kwaliteitscontrolemaatregelen te definiëren die in alle gevallen passen. Algoritmen kunnen echter helpen om de responskwaliteit van een interview te benchmarken met alle voorgaande. Gaat een respondent aanzienlijk sneller door de vragenlijst dan anderen? Zijn antwoorden in tekstvakken korter of bevatten ze onzin? En hoe zit het met de variatie in rastervragen? Al deze indicatoren kunnen een groter beeld schetsen en verschillende acties in gang zetten als een bepaalde drempel wordt bereikt. Je zou het algoritme het interview kunnen laten markeren voor handmatige inspectie, een waarschuwing aan de respondent kunnen tonen, een strikvraag kunnen invoegen om niet-oplettende respondenten uit te filteren, of het hele interview meteen uit de database kunnen verwijderen.

Een andere techniek is het bewust primen van respondenten om hun responskwaliteit onbewust te verbeteren. Hier wordt een tussenpagina met verleidelijke inhoud gepresenteerd vóór de relevante vragen om de respondent in de juiste stemming te brengen voor de komende taak. Omdat deze techniek niet voor alle respondenten even effectief is en de lengte van een interview kan verlengen, kunnen algoritmes helpen om de juiste primers alleen aan de juiste mensen op precies het juiste moment te presenteren. Ook deze technieken moeten voorzichtig worden toegepast met het oog op de algehele kwaliteit, aangezien ze ook schade kunnen veroorzaken.

Tot nu toe hebben we alleen gesproken over online onderzoek, wat geen verdere uitleg behoeft. Echter zijn andere methoden van gegevensverzameling ook onderhevig aan digitalisering en kunnen profiteren van algoritmes. Denk bijvoorbeeld aan telefonische interviews. Algoritmes kunnen de stem van de respondent analyseren en een analyse uitvoeren tijdens het interview. Deze informatie kan niet alleen nuttig zijn om de informatie in context te plaatsen bij het achteraf analyseren van de data, maar kan ook waardevolle feedback geven aan de interviewer tijdens het gesprek met de respondent. Echter, zoals eerder vermeld, is het echt moeilijk om maatregelen te definiëren die geschikt zijn voor elke studie.

dataverwerking

Nadat alle data verzameld is, moeten er meestal nog een paar stappen genomen worden voordat de data geanalyseerd word. De eerste stap bestaat uit het opschonen van de data, dat wil zeggen het verwijderen van gevallen die niet kunnen worden gebruikt voor analyse. Gegeven alle bovenstaande stappen, zou dit nu niet veel tijd en moeite meer moeten kosten. De volgende stap is het coderen van alle ongestructureerde data, vooral open antwoorden uit tekstvakken. Algoritmes kunnen herkennen of een bestaand codeplan van toepassing is (bijvoorbeeld een lijst met merken in een bepaalde categorie) of ze kunnen worden getraind om een nieuw codeplan te leren en toe te passen. Verschillende talen kunnen automatisch worden herkend en vertaald. Tenslotte kunnen alle gegevens worden gewogen om kleine afwijkingen in de samenstelling aan te passen of om deze af te stemmen op verschillende eenheden van de basis (bijvoorbeeld of de feedback representatief is voor alle inwoners of alle huishoudens).

Samengevat

Sommige van de technieken die in dit artikel worden beschreven, zijn al geïmplementeerd, andere moeten nog worden ontwikkeld. En naast dit “laaghangende fruit” zijn er nog tal van andere toepassingsgebieden waar algoritmes kunnen helpen bij het verbeteren van de manier waarop we met gegevens werken.

Wat we ook doen, we streven naar de best mogelijke kwaliteit en aarzelen om methoden te implementeren die onze hoge normen zouden kunnen compromitteren. We horen graag van je als je meer wilt weten of een vraag hebt.

English

Dansk

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski

Svenska