Graphic of different choices

Kuidas saavad algoritmid aidata meil parandada andmete kvaliteeti?

Selles artiklis soovime uurida algoritmide rakendusvaldkondi, mis aitavad meil parandada meie andmete kvaliteeti. Enne konkreetsete näidete juurde jõudmist peame välja tooma ühe olulise aspekti, mida tuleb andmete kvaliteedile sellisel viisil lähenemisel silmas pidada.

Algoritmide kvaliteet = andmete kvaliteet

Meie tegevust peaks juhtima teadmised, andes sellele struktuuri. Teadmised järgivad aluseks olevate andmete struktuuri. Määratluse kohaselt on struktuurid stabiilsed ning peavad vastu kõikvõimalikele häiretele. See on just see põhjus, miks me usume kõrge andmekvaliteedi väärtusse. Kui kehtestate stabiilseid ärirutiini, mis põhineb vigastel andmetel või arusaamadel, siis jääb teie tegevuses püsima kehv kvaliteet. Andmed on pikaealised ja seetõttu tuleks nende kvaliteeti pidada varaks, mis tasub end ära ka tulevikus.

Väga hea näide andmete pikaealisuse kohta on algoritmide treeningproovid. Mis tahes eelarvamused treeningandmetes korduvad üha uuesti ja uuesti ning algoritm võib neid võimendada. Me oleme varem näinud palju hirmuäratavaid näiteid selliste masinlike eelarvamuste kohta ja alles hakkame aru saama nende mõjudest (muide, kas olete kunagi mõelnud, et võiksite rääkida Norstati-suguse andmekogujaga oma masinõppeprojektide treeningvalimite kohta?).

Meie mõte on see, et kõik algoritmid peavad ise olema kvaliteetsed, kui nad kavatsevad parandada andmete kvaliteeti. Kui aga algoritmid on vigased, võib andmete kvaliteet veelgi halveneda. Ja olenemata sellest, kui hästi algoritmid võivad kunagi tulevikus töötada, suudavad nad ainult aidata meil vähendada kvaliteedikadu selle töötlemisel, kuid ei suuda kunagi muuta halba sisendit kõrge kvaliteediga väljundiks.

Sellest lähtuvalt tutvustame mõningaid valdkondi, kuidas selliseid algoritme võib ühel päeval rakendada küsitlusuuringutes.

Paneeli värbamine

Veebipõhise juurdepääsupaneeli värbamist tuleks vaadelda kui teie projekti valimi moodustamise protsessi esimest etappi. Kui te ei võta tööle kõige kõrgemate standardite järgi, siis saate lõpuks erapooliku allika projektinäidiste joonistamiseks. Ei vaja täiendavaid selgitusi, et erapoolikust valimit ei saa koostada erapoolikust paneelist. Seepärast oleme paneelide värbamisel nii hoolikad. Kuid kuidas võiksid algoritmid aidata meil parandada värbamise kvaliteeti?

  1. Paneeli vormis hoidmine nõuab väga keerulisi otsuseid, mis võivad hõlmata kompromisse erinevate parameetrite vahel. Näiteks peame jälgima paneeli koosseisu ja asendama tellimuste tühistamised. Samal ajal peame prognoosima vajalikke paneelide suurusi, et tulla toime kõigi taotlustega lähitulevikus. Ja meid piiravad olemasolev eelarve ja teostatav värbamismaht teatud aja jooksul. Kuidas me peaksime siis oma ressursse jaotama? Algoritmid võivad toetada meie kaalutlusi, osutades kõige olulisematele demograafilistele näitajatele ja värbamiskanalitele, millele praegu keskenduda, ning aidata meil vähemate jõupingutustega tasakaalustatud paneeli luua.
  2. Kui inimesed on paneeliga liitunud, tuleb nende isikut kontrollida, sest me peame veenduma, et need inimesed on need, kes nad väidavad end olevat. Kui me värbame neid telefoni teel, siis võime olla üsna kindlad, et räägime tegelikult reaalse inimesega. Kuigi see ei pruugi ikka veel olla nii lihtne, kui see telefoni teel tundub, on internetikasutajate identiteedi kontrollimine kindlasti midagi sellist, mida ei saa esimese kontakti ajal järeldada. Selle asemel tuleb seda vaadelda kui protsessi, mille käigus saavutate pidevalt usalduse liikme identiteedi suhtes pärast seda, kui olete taganud, et mõned põhinõuded on kohe alguses täidetud. Algoritmid aitavad meil seda protsessi kiirendada, kaasates rohkem andmepunkte palju keerulisemasse analüüsi. Sellised algoritmid võivad ka näidata, kui kaks erinevat isikut kasutavad sama e-posti aadressi, arvutit või paneelikontot.
  3. Kasutajate kontrollimine käib käsikäes duplikaatide kontrollimisega. Väga pealiskaudsel tasandil tehakse seda erinevate liikmete isiklike andmete, näiteks nimede, e-posti või IP-aadresside võrdlemise teel. Kuid alati tasub põhjalikumalt uurida sarnaseid profiile, sarnaseid vastusemustreid ja võimalikke seoseid kahtlaste profiilide või seadmete vahel. Kuna nõela leidmine heinakuhjast võib olla väga aeganõudev ja keeruline, võib automatiseerimine suurendada selliste kvaliteedikontrollide sagedust ja keerukust.

Hiljuti on olnud teateid professionaalsetest küsitlusfarmidest, kus võltsliikmeid registreeritakse paneelidesse, et nõuda stiimuleid suures mahus. See nähtus kattub meie kogemusega, et veebipaneelid muutuvad korduvalt petturite sihtmärgiks. Me ei taha avaldada mingeid üksikasju, kuid meil on olemas automaatsed algoritmilised rutiinid, mis hoiavad ära meie paneeliga seotud pettuse, märgivad anomaaliaid meie kasutajate käitumises ja teatavad kahtlastest püüdlustest stiimulite lunastamiseks.

Paneelide profileerimine

Paljud meie paneeli liikmed on liitunud üle kümne aasta tagasi ja nende elu on nende aastate jooksul muidugi muutunud. Kõik nad on saanud vanemaks. Mõned abiellusid, teised lahutasid. Mõned said lapsed, samas kui teiste lapsed võivad olla juba perest lahkunud. Mõned said edutatud, mõned jäid pensionile. Mõned kolisid uude koju, mõnel juhul isegi teise linna. Nad võisid osta uusi autosid ja uusi kodumasinaid. Nad võivad olla vahetanud oma pangad, kindlustused ja telefoniteenuse pakkujad. Ükskõik, mis ka ei juhtunud meie osalejate elus, ajakohastatud profiiliteave võimaldab meil koostada täpsemaid valimeid.

Me juba kutsume oma paneeli liikmeid üles uuendama regulaarselt kõiki oma profiili muutujaid, seega ei ole siinkohal vaja keerukamat algoritmi. Kuid kuna enamiku meie panelistide puhul on üle 500 andmepunkti, ei pruugi osa teabest siiski olla täpne ja me peame põhimõtteliselt otsima kõrvalekaldeid. Kui ühemõõtmeline meetod on üsna lihtne (“näita mulle kõiki liikmeid, kelle vanus on suurem kui 120 aastat”), siis mitmemõõtmeline lähenemine on statistiliselt palju keerulisem (“näita mulle kõiki liikmeid, kelle erinevate muutujate kombinatsioon on ebatavaline”). Näiteks kui teil on 16-aastane inimene, kelle aastane sissetulek on 50 000 eurot, siis on vanus ja sissetulek tõenäoliselt normaalväärtuste vahemikus. Kombinatsioon on aga hajuvusdiagrammil nähtav kõrvalekaldumine. Algoritmid võivad aidata neid kõrvalekaldeid tuvastada ja märgistada.

Algoritmid võivad aidata hinnata ka teatavate puuduvate väärtuste tõenäosust. Näiteks kui me tahaksime uuringu jaoks konkreetselt sihtida kõrge sissetulekuga paneeli liikmeid, kuid puutume kokku suure hulga paneeli liikmetega, kes ei vastanud sellele profiiliküsimusele, peame nende sissetulekut hindama teiste küsimuste põhjal. Me võime näiteks kutsuda neid, kellel on maja, kelle majapidamises on rohkem kui üks auto või kes reisivad väga tihti. Analoogiliselt võiksime arvutada ka mis tahes muu puuduva muutuja tõenäosuse, arvestades teadaolevaid seoseid sellega, mis meil on olemas. See võimaldaks meil oma valimid täpsemalt koostada.

Aga ettevaatust! See on üks juhtumitest, mida me pidasime silmas, kui kirjutasime sissejuhatuses oma lahtiütlemist. Me peame veenduma, et algoritm ei kahjusta meie valimi üldist kvaliteeti. Näiteks kui me tegelikult kutsume kõrge sissetulekuga inimeste asemel sageli reisivaid inimesi, võime avastada, et meie valim on kallutatud: üllatuslikult reisib enamik meie kõrge sissetulekuga vastajatest sageli. Seetõttu peaksime tagama, et meie prognoosimudel oleks piisavalt hea, et parandada meie uuringute üldist kvaliteeti.

Paneeli hooldus

Oleme veendunud, et meie hindamiskomisjoni liikmete motivatsiooni ja nende vastuste kvaliteedi vahel on tugev seos. Meie järgmistes näidetes toetavad algoritmid meie jõupingutusi, et pakkuda paneeli liikmetele paremat liikmeskogemust ja anda sel moel oma panus andmete kvaliteeti.

Paneelis osalemise eesmärk on küsitluste tegemine. Kõik, mis suurendab küsitlustes osalemise meeldivust, aitab ka kuidagi kaasa positiivsele liikmeskogemusele. Oluline tegur vastamismäära suurendamiseks on kutsete saatmise õige ajastus. Esmaspäeva hommikul, kui teie e-postkast on üleküllastunud, ignoreerite tõenäoliselt pigem küsitluskutsed, et tegeleda kiiremate asjadega. Seevastu kohe pärast lõunat võite olla veel puhkuse tujus, nii et vahelduseks võib olla väga teretulnud. Üldiselt võiksid algoritmid aidata meil tuvastada iga paneeli liikme jaoks õige päev ja lükata teavitused edasi hetkedele, mil nad tõenäoliselt saavad rohkem tähelepanu.

See tehnika võib minna kaugemale pelgalt päevase aja kasutamisest ja hõlmata ka muid andmeid, näiteks paneelirakenduse kasutusmustreid (nt geolokatsioon, güroskoop). Näiteks kui paneeli liikmed kodus olles juhuslikult oma telefoni käes väänavad, võivad nad kogeda seisakut ja neil on suurem tõenäosus sel hetkel push-teavitustele reageerida.

Proovide võtmine

Sellega tihedalt seotud on proovivõtu automatiseerimine. Vähe on paneelide jaoks pettumust tekitavam, kui saada kutse uuringusse, mis on juba suletud, kas osaliselt või täielikult teatud kvoodi alusel. Seetõttu saadate tavaliselt põllu edenedes üha väiksemaid ja väiksemaid proove, et läheneda soovitud täitmiste arvule, ilma et kvoodid ületuksid. Selgetel põhjustel on see üsna töömahukas ja võib muutuda üsna keeruliseks, mida rohkem on kvoote. Automaatne proovivõtmine aitab vähendada valimi kadusid, sest uuringukutsed saadetakse väiksemate ja sagedasemate partiidena, kui seda suudaks teha ükskõik milline inimproovivõtja. See on tehnika, mida me juba kasutame näidisdefinitsioonide puhul, mis ei ole liiga keerulised. Lisaks sellele võib tulevikus kasutada statistiliselt hinnatud profiiliandmeid, kui sellised algoritmid ei muutu uueks vigade allikaks (vt eespool).

Teine meetod, millega vähendada negatiivset kogemust, mis tuleneb ekraanilõikustest ja kvootide ebaõnnestumisest, on marsruutimine. Selleks on kaks põhilist võimalust. Selline rumal viis, mida me kõik oleme ilmselt kuskil varem näinud, on vastajate hoidmine lõputus küsitlusvoos, kuni nad kvalifitseeruvad. Kui olete jõudnud küsitluse lõpulehele, saate kohe võimaluse kvalifitseeruda teises küsimustikus. Oleme selle lähenemisviisi suhtes üsna skeptilised, sest see võib kahjustada vastajate motivatsiooni ning soodustada kiirust ja muud rahuldust pakkuvat vastamiskäitumist.

Siiski on olemas targem viis marsruutimisest mõtlemiseks. Kutsute paneeli liikmeid vanaviisi ja teatate neile, et uus uuring on nende jaoks kättesaadav. Kui nad klõpsavad kutse lingile, suunatakse nad avatud uuringusse, mis vastab kõige paremini nende profiilile. Isegi kui uuring, kuhu nad algselt määrati, on suletud, lubatakse neil osaleda teises uuringus. Sellise marsruutimismeetodi puhul on proovi kvaliteedi kahjustamise oht oluliselt väiksem, kuna ümber suunatakse ainult väike ülevool (automatiseeritud proovivõtust). Lisaks sellele ei puutu vastajad kokku lõputute küsitlusküsimustike jadaga, vaid vastavad tegelikult ainult ühele küsitlusele korraga. Igal juhul peab teil olema nutikas algoritm, mis jälgib kõiki liikmeprofiile, mis ei ole veel vastanud, lisaks kõiki olemasolevate uuringute sihtrühma määratlusi ja lõpuks teeb täiusliku vaste. Nii suurendaksite osalejate motivatsiooni osaleda.

Intervjuu ajal

Iga uuring on ainulaadne. Seetõttu on väga raske määratleda üldisi kvaliteedikontrolli meetmeid, mis sobiksid kõigile juhtumitele. Algoritmid võivad siiski aidata võrrelda intervjuu vastuse kvaliteeti kõigi varasemate intervjuudega. Kas mõni vastaja liigub küsimustiku täitmisel oluliselt kiiremini kui teised? Kas tekstikastides olevad vastused on lühemad või sisaldavad nad mõttetuid sõnu? Ja kuidas on variatsioon võrguküsimustes? Kõik need näitajad võivad joonistada suurema pildi ja käivitada erinevaid meetmeid, kui teatud künnis on saavutatud. Võiksite lasta algoritmil märkida intervjuu käsitsi kontrollimiseks, kuvada vastajale hoiatuse, lisada kõrvalekalduva küsimuse, et sõeluda välja tähelepanematud vastajad, või eemaldada kogu intervjuu kohe andmebaasist.

Teine meetod on vastajate tahtlik ettevalmistamine, et alateadlikult suurendada nende vastuse kvaliteeti. Siinkohal esitatakse enne asjakohaseid küsimusi vahepealne lehekülg suupistetega, et vastajat eelseisva ülesande jaoks õigesse mõtteviisi viia. Kuna see tehnika ei ole kõigi vastajate puhul võrdselt tõhus, vaid võib intervjuu pikkust paisutada, aitavad algoritmid esitada õigeid aluspõhimõtteid ainult õigetele inimestele täpselt õigel hetkel. Ka neid tehnikaid tuleb üldkvaliteeti silmas pidades rakendada ettevaatlikult, sest need võivad ka kahjulikult mõjuda.

Siiani oleme rääkinud ainult veebipõhistest teadusuuringutest, mis ei vaja täiendavaid selgitusi. Kuid ka muud andmekogumismeetodid kuuluvad digitaliseerimisele ja võivad saada kasu algoritmidest. Mõelge näiteks telefoniintervjuudele. Algoritmid võiksid analüüsida vastaja häält ja teha intervjuu ajal sentimentaalanalüüsi. See teave võib olla kasulik mitte ainult andmete kontekstualiseerimiseks andmete hilisemal analüüsimisel, vaid anda ka väärtuslikku tagasisidet intervjueerijale, kui ta vestleb vastajaga. Kuid nagu öeldud, on tõesti raske määratleda meetmeid, mis sobiksid igale uuringule.

Andmetöötlus

Kui kõik andmed on kogutud, tuleb enne nende analüüsimist tavaliselt teha veel mõned sammud. Esimene samm seisneb andmete puhastamises, st analüüsiks mittekasutatavate juhtumite eemaldamises. Arvestades kõiki ülaltoodud samme, ei tohiks see enam palju aega ja vaeva võtta. Järgmine samm on kõigi struktureerimata andmete, eriti tekstikastide avatud vastuste kodeerimine. Algoritmid võivad tuvastada, kas kehtib olemasolev koodiplaan (nt teatava kategooria kaubamärkide loetelu), või nad võivad õppida ja rakendada uut koodiplaani. Erinevad keeled võidakse automaatselt ära tunda ja tõlkida. Lõpuks võib kõiki andmeid kaaluda, et korrigeerida väiksemaid erinevusi koosseisus või viia need vastavusse erinevate alusüksustega (nt kas tagasiside on esinduslik kõigi elanike või kõigi leibkondade kohta).

Ja mis siis?

Mõned käesolevas artiklis kirjeldatud tehnikad on juba kasutusel, teised on alles väljatöötamisel. Lisaks nendele “madalalt rippuvatele viljadele” on veel palju teisi rakendusvaldkondi, kus algoritmid võivad lihtsustada meie tööd andmetega.

Mida iganes me ka ei teeks, püüame saavutada parimat võimalikku kvaliteeti ja kõhkleme meetodite rakendamisel, mis võivad meie kõrgeid standardeid ohustada. Kui soovid rohkem teada saada või sul on küsimusi, siis ootame sinu kommentaare.

Ühtlustatud andmete kogumine

Meie laiahaardeline andmekogumislahendus toetab teid igas etapis, alates sihtrühma määratlemisest kuni küsitluse kavandamise ja tulemuste esitamiseni. Meie poolse haldamise puhul peame silmas asjatundlikkust ja paindlikust ning võtame arvesse teie vajadusi.

Vaata rohkem