Graphic of different choices

Kaip algoritmai gali padėti pagerinti duomenų kokybę?

Šiame straipsnyje norėtume panagrinėti algoritmų, padedančių gerinti duomenų kokybę, taikymo sritis. Prieš pateikdami keletą konkrečių pavyzdžių, turime pabrėžti svarbų aspektą, kurio reikia nepamiršti, kai tokiu būdu siekiama duomenų kokybės.

Algoritmų kokybė = duomenų kokybė

Įžvalga turėtų vadovauti mūsų veiksmams, suteikdama jiems struktūrą. O įžvalgos priklauso nuo pagrindinių duomenų struktūros. Pagal apibrėžimą struktūros yra stabilios ir atsparios trikdžiams. Būtent dėl šios priežasties tikime aukštos duomenų kokybės verte. Jei nustatysite stabilią verslo tvarką, pagrįstą klaidingais duomenimis ar įžvalgomis, prasta kokybė išliks jūsų veiksmuose. Duomenys yra ilgaamžiai, todėl jų kokybė turėtų būti laikoma turtu, kuris atsiperka ateityje.

Labai geras duomenų ilgaamžiškumo pavyzdys yra algoritmų mokymo pavyzdžiai. Bet koks mokymo duomenų šališkumas bus kartojamas vėl ir vėl, o algoritmas jį galbūt dar labiau sustiprins. Praeityje matėme daug bauginančių tokių mašininio šališkumo pavyzdžių ir dar tik pradedame suprasti jų pasekmes (Beje, ar kada nors pagalvojote apie galimybę pasikalbėti su duomenų rinkėju, pavyzdžiui, “Norstat”, dėl mokymo imčių savo mašininio mokymosi projektams?).

Norime pasakyti, kad visi algoritmai turi būti kokybiški, jei norima pagerinti duomenų kokybę. Ir atvirkščiai, jei algoritmai yra ydingi, duomenų kokybė gali dar labiau pablogėti. Ir kad ir kokie geri algoritmai kada nors ateityje bus, jie galės tik padėti sumažinti kokybės praradimą ją apdorojant, bet niekada negalės paversti nekokybiškų duomenų įvesties į aukštos vertės rezultatus.

Todėl panagrinėkime kai kurias sritis, kuriose tokie algoritmai kada nors gali būti taikomi apklausų tyrimuose.

Grupės įdarbinimas

Įdarbinimas į internetinę prieigos grupę turėtų būti laikomas pirmuoju jūsų projekto atrankos proceso etapu. Jei į komisiją įdarbinsite ne pagal aukščiausius standartus, galiausiai turėsite neobjektyvų projekto pavyzdžių braižymo šaltinį. Nereikia papildomai aiškinti, kad iš šališkos grupės negalima sudaryti nešališkos imties. Štai kodėl taip kruopščiai įdarbiname ekspertų grupes. Tačiau kaip algoritmai galėtų padėti pagerinti įdarbinimo kokybę?

  1. Norint išlaikyti plokštės formą, reikia priimti labai sudėtingus sprendimus, kurie gali apimti kompromisus tarp skirtingų parametrų. Pavyzdžiui, turime stebėti skydelio sudėtį ir pakeisti prenumeratos atsisakymus. Tuo pačiu metu turime prognozuoti reikiamus plokščių dydžius, kad artimiausiu metu galėtume patenkinti visus prašymus. Be to, mus riboja turimas biudžetas ir įdarbinimo apimtis per tam tikrą laikotarpį. Kaip turėtume paskirstyti savo išteklius? Algoritmai gali padėti mūsų svarstymams, nurodydami svarbiausius demografinius rodiklius ir įdarbinimo kanalus, į kuriuos šiuo metu reikia sutelkti dėmesį, ir padėti mums sukurti subalansuotą ekspertų grupę dedant mažiau pastangų.
  2. Kai žmonės užsiprenumeruoja grupę, jų tapatybė turi būti patikrinta, nes tiesiog turime įsitikinti, kad šie žmonės yra tie, kuriais jie sakosi esą. Jei juos įdarbiname telefonu, galime būti tikri, kad iš tikrųjų kalbame su tikru žmogumi. Nors tai vis dar nėra taip paprasta, kaip atrodo telefonu, interneto naudotojų tapatybės patikrinimas tikrai nėra tai, ko negalite padaryti per pirmąjį kontaktą. Vietoj to į tai reikia žiūrėti kaip į procesą, kurio metu, iš pat pradžių įsitikinus, kad laikomasi tam tikrų pagrindinių reikalavimų, vis labiau pasitikima nario tapatybe. Algoritmai gali padėti mums pagreitinti šį procesą įtraukiant daugiau duomenų taškų į daug sudėtingesnę analizę. Tokie algoritmai taip pat gali atskleisti, ar du skirtingi asmenys naudojasi tuo pačiu el. pašto adresu, kompiuteriu ar skydelio paskyra.
  3. Naudotojų tikrinimas neatsiejamas nuo dublikatų tikrinimo. Labai paviršutiniškai tai daroma lyginant skirtingų narių asmeninę informaciją, pavyzdžiui, vardus, el. pašto adresus arba IP adresus. Tačiau visada verta atidžiau išnagrinėti panašius profilius, panašius reagavimo modelius ir galimas įtartinų profilių ar įrenginių sąsajas. Kadangi rasti adatą šiene gali būti labai sudėtinga ir užimti daug laiko, automatizavimas gali padidinti tokių kokybės patikrinimų dažnumą ir sudėtingumą.

Pastaruoju metu pasirodė pranešimų apie profesionalių apklausų ūkius, kuriuose į ekspertų grupes įtraukiami netikri nariai, kad būtų galima prašyti paskatų dideliu mastu. Šis reiškinys sutampa su mūsų patirtimi, kad internetiniai skydai ne kartą tapo sukčių taikiniu. Nenorime atskleisti jokių detalių, tačiau turime įdiegę automatines algoritmines procedūras, kurios užkerta kelią sukčiavimui prenumeruojant mūsų skydelį, pažymi naudotojų elgesio anomalijas ir praneša apie įtartinus bandymus panaudoti paskatas.

Grupės profiliavimas

Daugelis mūsų komisijos narių prisijungė daugiau nei prieš dešimtmetį ir per tuos metus jų gyvenimas, žinoma, pasikeitė. Visi jie bus pagyvenę. Vieni susituokė, kiti išsiskyrė. Vieni jų susilaukė vaikų, o kitų vaikai galbūt jau paliko šeimą. Kai kurie buvo paaukštinti, kai kurie išėjo į pensiją. Kai kurie persikėlė į naujus namus, o kai kuriais atvejais net į kitą miestą. Jie galėjo įsigyti naujų automobilių ir buitinės technikos. Galbūt jie pakeitė banką, draudimą ir telefono ryšio operatorių. Nepriklausomai nuo to, kas nutiko mūsų grupės narių gyvenime, turėdami atnaujintą profilio informaciją, galime sudaryti tikslesnes imtis.

Mes jau raginame savo grupės narius reguliariai atnaujinti visus savo profilio kintamuosius, todėl sudėtingesnio algoritmo nereikia. Tačiau, kai daugumos mūsų grupės narių duomenys viršija 500 taškų, dalis informacijos vis tiek gali būti netiksli, todėl iš esmės turime ieškoti nukrypimų nuo normos. Vienfaktorinis metodas yra gana paprastas (“parodykite man visus narius, kurių amžius didesnis nei 120 metų”), o daugiamatis metodas statistiškai daug sudėtingesnis (“parodykite man visus narius, kurių įvairių kintamųjų derinys yra neįprastas”). Pavyzdžiui, jei turite 16 metų asmenį, kurio metinės pajamos yra 50 000 eurų, amžius ir pajamos tikriausiai patenka į normalių verčių intervalą. Tačiau šis derinys bus matomas išsklaidytoje diagramoje. Algoritmai gali padėti nustatyti ir pažymėti šiuos nukrypimus.

Algoritmai taip pat gali padėti įvertinti tam tikrų trūkstamų reikšmių tikimybę. Pavyzdžiui, jei tyrimui norėtume pasirinkti būtent dideles pajamas gaunančius grupės narius, bet susiduriame su dideliu skaičiumi grupės narių, kurie neatsakė į šį profilio klausimą, turime įvertinti jų pajamas remdamiesi kitais klausimais. Pavyzdžiui, galime pakviesti tuos, kurie turi namą, daugiau nei vieną automobilį arba dažnai keliauja. Analogiškai galėtume apskaičiuoti bet kokio kito trūkstamo kintamojo tikimybę, atsižvelgdami į žinomas koreliacijas su tuo, ką turime. Tai leistų tiksliau sudaryti imtį.

Bet atsargiai! Tai vienas iš atvejų, kuriuos turėjome omenyje rašydami įžangoje pateiktą išlygą. Turime įsitikinti, kad algoritmas nepakenks bendrai mūsų imties kokybei. Pavyzdžiui, jei iš tikrųjų pakviesime dažnai keliaujančius, o ne dideles pajamas gaunančius asmenis, gali paaiškėti, kad mūsų imtis yra neobjektyvi: netikėtai dauguma mūsų respondentų, gaunančių dideles pajamas, dažnai keliauja. Todėl turėtume įsitikinti, kad mūsų prognozavimo modelio kokybė yra pakankamai gera, kad pagerintų bendrą mūsų tyrimų kokybę.

Skydų priežiūra

Esame įsitikinę, kad tarp mūsų ekspertų grupės narių motyvacijos ir jų atsakymų kokybės yra glaudus ryšys. Kituose pavyzdžiuose algoritmai padeda mūsų pastangoms suteikti panelininkams geresnę narystės patirtį ir taip prisidėti prie duomenų kokybės.

Dalyvavimo ekspertų grupėje tikslas – atlikti apklausas. Viskas, kas didina palankumą dalyvauti apklausose, taip pat prisideda prie teigiamos narystės patirties. Svarbus veiksnys, padedantis padidinti atsakymų skaičių, yra tinkamas kvietimų siuntimo laikas. Pirmadienio rytą, kai jūsų el. pašto dėžutė perpildyta, tikriausiai verčiau ignoruosite kvietimą atlikti apklausą, kad galėtumėte tvarkyti skubesnius reikalus. Priešingai, iškart po pietų galite būti nusiteikę pertraukai, todėl pramoga gali būti labai pageidautina. Apskritai algoritmai galėtų padėti mums nustatyti tinkamą dienos laiką kiekvienam diskusijos dalyviui ir atidėti pranešimus tiems momentams, kai tikėtina, kad jie sulauks daugiau dėmesio.

Šis metodas gali neapsiriboti vien tik dienos laiku ir apimti kitus duomenis, pavyzdžiui, skydelio programos naudojimo modelius (pvz., geolokaciją, giroskopą). Pavyzdžiui, jei grupės nariai, būdami namuose, atsitiktinai pasuka telefoną rankoje, jie gali patirti prastovą ir labiau linkę reaguoti į stumiamuosius pranešimus tuo metu.

Mėginių ėmimas

Su tuo glaudžiai susijęs mėginių ėmimo automatizavimas. Mažai kas labiau nuvilia komisijos narius, nei tai, kad jie kviečiami dalyvauti apklausoje, kuri jau buvo uždaryta – iš dalies dėl tam tikros kvotos arba visiškai uždaryta. Dėl šios priežasties paprastai siunčiate vis mažesnius mėginius, kad priartėtumėte prie pageidaujamo užbaigimų skaičiaus ir neperpildytumėte kvotų. Dėl akivaizdžių priežasčių tai reikalauja nemažai darbo, be to, kuo daugiau kvotų, tuo sudėtingiau. Automatizuota atranka gali padėti sumažinti imties praradimą, nes kvietimai atlikti apklausą siunčiami mažesnėmis ir dažnesnėmis partijomis, nei tai galėtų padaryti bet kuris imtį sudarantis žmogus. Šį metodą jau taikome pavyzdžių apibrėžtims, kurios nėra pernelyg sudėtingos. Be to, ateityje gali būti naudojama statistiškai įvertinta profilio informacija, jei tokie algoritmai netaps nauju trūkumų šaltiniu (žr. pirmiau).

Dar vienas būdas sumažinti neigiamą ekrano atmetimo ir kvotų nesilaikymo patirtį yra nukreipimas. Yra du pagrindiniai būdai, kaip tai padaryti. Toks kvailas būdas, su kuriuo tikriausiai visi esame susidūrę praeityje, – laikyti respondentus nesibaigiančiame apklausų tikrintojų sraute, kol jie atitinka reikalavimus. Pasiekę galutinį apklausos puslapį, iš karto gausite galimybę dalyvauti kitoje apklausoje. Šį metodą vertiname gana skeptiškai, nes jis gali pakenkti respondentų motyvacijai ir paskatinti viršyti greitį bei kitus pasitenkinimą teikiančius atsakymus.

Tačiau apie maršruto parinkimą galima galvoti protingiau. Pakvieskite grupės narius senoviniu būdu ir praneškite jiems, kad jiems siūloma nauja apklausa. Spustelėję kvietime esančią nuorodą, jie bus nukreipti į atvirą apklausą, kuri geriausiai atitinka jų profilį. Net jei tyrimas, kuriam jie buvo priskirti iš pradžių, bus baigtas, jiems bus leista dalyvauti kitame tyrime. Taikant šį nukreipimo būdą, rizika, kad nukentės mėginio kokybė, yra gerokai mažesnė, nes nukreipiamas tik nedidelis perpildymas (dėl automatinio mėginių ėmimo). Be to, respondentai nesusidurs su nesibaigiančiomis apklausų atrankos seka, bet iš tikrųjų vienu metu atsakys tik į vieną apklausą. Bet kokiu atveju turite turėti išmanų algoritmą, kuris stebi visus narių profilius, kurie dar neatsakė, be to, visus turimų tyrimų tikslinių grupių apibrėžimus ir galiausiai užtikrina tobulą atitikimą. Taip padidinsite komisijos narių motyvaciją dalyvauti.

Interviu metu

Kiekvienas tyrimas yra unikalus. Dėl to labai sunku nustatyti bendras kokybės kontrolės priemones, kurios tiktų visais atvejais. Tačiau algoritmai gali padėti palyginti interviu atsakymų kokybę su visais ankstesniais interviu. Ar respondentas klausimyną pildo greičiau nei kiti? Ar teksto langeliuose pateikti atsakymai yra trumpesni, ar juose yra nesąmonių? O kaip dėl tinklelio klausimų skirtumų? Visi šie rodikliai gali sudaryti bendrą vaizdą ir paskatinti imtis įvairių veiksmų, jei pasiekiama tam tikra riba. Galite leisti algoritmui pažymėti interviu, kad jis būtų patikrintas rankiniu būdu, rodyti įspėjimą respondentui, įterpti raudoną klausimą, kad būtų atrinkti neatidūs respondentai, arba iš karto pašalinti visą interviu iš duomenų bazės.

Kitas metodas – sąmoningas respondentų skatinimas, siekiant pasąmoningai pagerinti jų atsakymų kokybę. Šiuo atveju prieš atitinkamus klausimus pateikiamas tarpinis puslapis su užkandžiams skirtu turiniu, kad respondentas būtų tinkamai nusiteikęs būsimai užduočiai. Kadangi šis metodas nėra vienodai veiksmingas visiems respondentams ir gali pailginti pokalbio trukmę, algoritmai gali padėti pateikti tinkamus pirminius duomenis tik tinkamiems žmonėms tinkamu metu. Vėlgi, šiuos metodus reikia taikyti atsargiai, atsižvelgiant į bendrą kokybę, nes jie gali ir pakenkti.

Iki šiol kalbėjome tik apie internetinius tyrimus, kurių papildomai aiškinti nereikia. Tačiau kiti duomenų rinkimo metodai taip pat gali būti skaitmeninami ir jiems gali būti naudingi algoritmai. Pavyzdžiui, pagalvokite apie pokalbius telefonu. Algoritmai galėtų analizuoti respondento balsą ir atlikti nuotaikų analizę interviu metu. Ši informacija gali būti naudinga ne tik kontekstualizuojant informaciją vėliau analizuojant duomenis, bet ir suteikti vertingą grįžtamąjį ryšį apklausos vykdytojui kalbantis su respondentu. Tačiau, kaip minėta, tikrai sunku apibrėžti priemones, kurios tiktų kiekvienam tyrimui.

Duomenų apdorojimas

Surinkus visus duomenis, prieš juos analizuojant paprastai reikia atlikti dar kelis veiksmus. Pirmasis etapas – duomenų valymas, t. y. atvejų, kurių negalima naudoti analizei, pašalinimas. Atsižvelgiant į visus pirmiau nurodytus veiksmus, tai nebeturėtų užimti daug laiko ir pastangų. Kitas žingsnis – koduoti visus nestruktūrizuotus duomenis, ypač atvirus atsakymus iš teksto langelių. Algoritmai gali atpažinti, ar taikomas esamas kodų planas (pvz., tam tikros kategorijos prekių ženklų sąrašas), arba būti apmokyti mokytis ir taikyti naują kodų planą. Skirtingos kalbos gali būti automatiškai atpažįstamos ir išverčiamos. Galiausiai visi duomenys gali būti svertiniai, kad būtų galima pakoreguoti mažesnius sudėties neatitikimus arba suderinti juos su skirtingais pagrindo vienetais (pvz., ar grįžtamasis ryšys yra reprezentatyvus visiems gyventojams, ar visiems namų ūkiams).

Kas iš to?

Kai kurie iš šiame straipsnyje aprašytų metodų jau taikomi, kiti dar tik kuriami. Be šių “mažai kabančių vaisių”, yra daugybė kitų taikymo sričių, kuriose algoritmai gali palengvinti mūsų darbą su duomenimis.

Kad ir ką darytume, siekiame geriausios įmanomos kokybės ir nesiryžtame taikyti metodų, kurie gali pakenkti mūsų aukštiems standartams. Norėtume išgirsti jūsų nuomonę, jei norite sužinoti daugiau arba turite klausimų.

Supaprastintas duomenų rinkimas

Mūsų išsamus duomenų rinkimo sprendimas padeda jums visuose etapuose – nuo tikslinės auditorijos nustatymo iki apklausos scenarijaus sudarymo ir rezultatų pateikimo. Valdoma atsižvelgiant į kompetenciją, lankstumą ir konkrečius jūsų poreikius.

Sužinokite daugiau