W jaki sposób algorytmy mogą pomóc nam poprawić jakość danych?

Jakość algorytmów = jakość danych

Spostrzeżenia powinny kierować naszymi działaniami, nadając im strukturę. A spostrzeżenia podążają za strukturą danych bazowych. Z definicji struktury są stabilne i odporne na perturbacje. To jest właśnie powód, dla którego wierzymy w wartość wysokiej jakości danych. Jeśli ustanowisz stabilne rutyny biznesowe, które opierają się na błędnych danych lub spostrzeżeniach, niska jakość będzie się utrzymywać w twoich działaniach. Dane mają długą żywotność, dlatego ich jakość powinna być traktowana jako zasób, który będzie procentował w przyszłości.

Bardzo dobrym przykładem długowieczności danych są próbki szkoleniowe dla algorytmów. Wszelkie odchylenia w danych szkoleniowych będą odtwarzane w kółko i prawdopodobnie zostaną wzmocnione przez algorytm. W przeszłości widzieliśmy wiele przerażających przykładów takich uprzedzeń maszynowych i dopiero zaczynamy rozumieć ich konsekwencje (nawiasem mówiąc, czy kiedykolwiek myślałeś o rozmowie z firmą zbierającą dane, taką jak Norstat, na temat próbek szkoleniowych dla twoich projektów uczenia maszynowego?)

Chodzi nam o to, że wszystkie algorytmy muszą mieć wysoką jakość, jeśli mają poprawić jakość danych. I odwrotnie, jeśli algorytmy są wadliwe, jakość danych może być jeszcze gorsza. I niezależnie od tego, jak dobre algorytmy mogą kiedyś działać w przyszłości, będą one w stanie pomóc nam jedynie zmniejszyć utratę jakości podczas przetwarzania, ale nigdy nie będą w stanie przekształcić kiepskich danych wejściowych w wysokiej jakości dane wyjściowe.

Biorąc to pod uwagę, przyjrzyjmy się niektórym obszarom, w których takie algorytmy mogą kiedyś zostać zastosowane w badaniach ankietowych.

Rekrutacja do panelu

Rekrutacja do panelu dostępu online powinna być postrzegana jako pierwszy etap procesu doboru próby w projekcie. Jeśli nie będziesz rekrutować do panelu zgodnie z najwyższymi standardami, otrzymasz nieobiektywne źródło do rysowania próbek projektów. Nie wymaga dalszych wyjaśnień, że nie można wylosować nieobiektywnej próby z nieobiektywnego panelu. Właśnie dlatego tak skrupulatnie podchodzimy do rekrutacji panelowej. Ale w jaki sposób algorytmy mogą pomóc nam poprawić jakość rekrutacji?

Utrzymanie kształtu panelu wymaga bardzo złożonych decyzji, które mogą obejmować kompromisy między różnymi parametrami. Na przykład, musimy mieć oko na skład panelu i zastępować osoby, które zrezygnowały z subskrypcji. Jednocześnie musimy prognozować wymagane rozmiary paneli, aby sprostać wszystkim wymaganiom w najbliższej przyszłości. Jesteśmy ograniczeni dostępnym budżetem i możliwym do zrealizowania wolumenem rekrutacji w określonych ramach czasowych. Jak więc powinniśmy alokować nasze zasoby? Algorytmy mogą wesprzeć nasze rozważania, wskazując najważniejsze dane demograficzne i kanały rekrutacji, na których należy się teraz skupić, i pomóc nam zbudować zrównoważony panel przy mniejszym wysiłku.
Gdy ludzie zasubskrybują panel, ich tożsamość musi zostać zweryfikowana, ponieważ musimy mieć pewność, że te osoby są tym, za kogo się podają. Jeśli rekrutujemy ich telefonicznie, możemy być pewni, że rozmawiamy z prawdziwą osobą. Chociaż nadal może to nie być tak łatwe, jak wydaje się przez telefon, weryfikacja tożsamości użytkowników online jest zdecydowanie czymś, czego nie można zakończyć podczas pierwszego kontaktu. Zamiast tego należy postrzegać to jako proces, w którym zyskujesz pewność co do tożsamości członka po upewnieniu się, że niektóre podstawowe wymagania są spełnione na samym początku. Algorytmy mogą pomóc nam przyspieszyć ten proces poprzez uwzględnienie większej liczby punktów danych w znacznie bardziej złożonej analizie. Takie algorytmy mogą również ujawnić, czy dwie różne osoby korzystają z tego samego adresu e-mail, komputera lub konta w panelu.
Weryfikacja użytkowników idzie w parze ze sprawdzaniem duplikatów. Na bardzo powierzchownym poziomie odbywa się to poprzez porównywanie danych osobowych różnych członków, takich jak imiona i nazwiska, adresy e-mail lub adresy IP. Zawsze jednak warto przyjrzeć się bliżej podobnym profilom, podobnym wzorcom odpowiedzi i możliwym powiązaniom między podejrzanymi profilami lub urządzeniami. Ponownie, ponieważ znalezienie igły w sianie może być bardzo czasochłonne i złożone, automatyzacja może zwiększyć częstotliwość i wyrafinowanie takich kontroli jakości.

Ostatnio pojawiły się doniesienia o profesjonalnych farmach ankietowych, w których fałszywi członkowie są zapisywani do paneli w celu uzyskania zachęt na dużą skalę. Zjawisko to zgadza się z naszym doświadczeniem, że panele online wielokrotnie stają się celem oszustów. Nie chcemy ujawniać żadnych szczegółów, ale mamy zautomatyzowane procedury algorytmiczne, które zapobiegają nieuczciwym subskrypcjom w naszym panelu, sygnalizują anomalie w zachowaniu naszych użytkowników i zgłaszają podejrzane próby realizacji zachęt.

Profilowanie paneli

Wielu członków naszego panelu dołączyło ponad dekadę temu, a ich życie oczywiście zmieniło się przez te wszystkie lata. Wszyscy oni staną się starsi. Niektórzy się pobrali, inni rozwiedli. Niektórzy mają dzieci, podczas gdy dzieci innych mogły już opuścić rodzinę. Niektórzy awansowali, inni przeszli na emeryturę. Niektórzy przeprowadzili się do nowego domu, a w niektórych przypadkach nawet do innego miasta. Być może kupili nowe samochody i sprzęt AGD. Być może zmienili oni swoje banki, ubezpieczenia i operatorów telefonicznych. Niezależnie od tego, co wydarzyło się w życiu naszych panelistów, posiadanie zaktualizowanych informacji o profilu pozwala nam na wyciągnięcie dokładniejszych próbek.

Już teraz zachęcamy członków naszego panelu do regularnego aktualizowania wszystkich swoich zmiennych profilowych; nie ma więc potrzeby stosowania tutaj bardziej wyrafinowanego algorytmu. Jednak przy ponad 500 punktach danych dla większości naszych panelistów, niektóre informacje mogą nadal nie być dokładne i zasadniczo musimy szukać wartości odstających. Podczas gdy metoda jednowymiarowa jest dość prosta (“pokaż mi wszystkich członków, których wiek jest wyższy niż 120 lat”), podejścia wielowymiarowe są statystycznie znacznie bardziej złożone (“pokaż mi wszystkich członków, których kombinacja różnych zmiennych jest nietypowa”). Na przykład, jeśli masz 16-letnią osobę z rocznym dochodem w wysokości 50 000 euro, wiek i dochód prawdopodobnie mieszczą się w zakresie normalnych wartości. Kombinacja ta będzie jednak widoczną wartością odstającą na wykresie punktowym. Algorytmy mogą pomóc zidentyfikować i oznaczyć te wartości odstające.

Algorytmy mogą również pomóc w oszacowaniu prawdopodobieństwa wystąpienia pewnych brakujących wartości. Na przykład, jeśli chcielibyśmy skierować badanie w szczególności do panelistów o wysokich dochodach, ale napotkamy dużą liczbę panelistów, którzy nie odpowiedzieli na to pytanie profilowe, musimy oszacować ich dochody na podstawie innych pytań. Możemy na przykład zaprosić osoby posiadające dom, więcej niż jeden samochód w gospodarstwie domowym lub często podróżujące. Analogicznie, moglibyśmy obliczyć prawdopodobieństwo każdej innej brakującej zmiennej, biorąc pod uwagę znane korelacje z tym, co mamy. Pozwoliłoby nam to na bardziej precyzyjne losowanie próbek.

Ale ostrożnie! Jest to jeden z przypadków, które mieliśmy na myśli, pisząc nasze zastrzeżenie we wstępie. Musimy upewnić się, że algorytm nie zaszkodzi ogólnej jakości naszej próbki. Na przykład, jeśli faktycznie zaprosimy osoby często podróżujące zamiast osób o wysokich dochodach, możemy odkryć, że nasza próba jest stronnicza: zaskakująco większość naszych respondentów o wysokich dochodach będzie często podróżować. Dlatego musimy upewnić się, że jakość naszego modelu predykcyjnego jest wystarczająco dobra, aby poprawić ogólną jakość naszych badań.

Konserwacja panelu

Jesteśmy przekonani, że istnieje silny związek między motywacją członków naszego panelu a jakością ich odpowiedzi. W naszych kolejnych przykładach algorytmy wspierają nasze wysiłki, aby zapewnić panelistom lepsze wrażenia z członkostwa i w ten sposób przyczyniają się do jakości danych.

Celem uczestnictwa w panelu jest wypełnianie ankiet. Wszystko, co zwiększa sympatię do udziału w ankietach, również w jakiś sposób przyczynia się do pozytywnego doświadczenia członkostwa. Ważnym czynnikiem zwiększającym wskaźnik odpowiedzi jest odpowiedni czas wysyłania zaproszeń. W poniedziałkowy poranek, gdy Twoja skrzynka odbiorcza jest przepełniona, prawdopodobnie wolałbyś zignorować zaproszenie do ankiety, aby zająć się pilniejszymi sprawami. Z kolei tuż po obiedzie możesz być w nastroju do przerwy, więc zmiana kierunku może być bardzo mile widziana. Ogólnie rzecz biorąc, algorytmy mogą pomóc nam zidentyfikować odpowiedni czas dla każdego panelisty i przełożyć powiadomienia na momenty, w których prawdopodobnie otrzymają więcej uwagi.

Technika ta może wykraczać daleko poza samo korzystanie z dnia i obejmować również inne dane, takie jak wzorce użytkowania z aplikacji panelu (np. geolokalizacja, żyroskop). Na przykład, jeśli członkowie panelu losowo przekręcą swój telefon w dłoni, będąc w domu, mogą doświadczyć przestoju i mieć większą skłonność do reagowania na powiadomienia push w tym momencie.

Pobieranie próbek

Jest to ściśle związane z automatyzacją próbkowania. Nie ma nic bardziej frustrującego dla panelistów niż zaproszenie do ankiety, która została już zamknięta, albo częściowo dla określonej kwoty, albo całkowicie. Z tego powodu zazwyczaj wysyła się coraz mniejsze próbki w miarę postępów w terenie, aby zbliżyć się do pożądanej liczby kompletów bez przepełnienia limitów. Z oczywistych względów jest to dość pracochłonne i może stać się dość skomplikowane, im więcej kwot posiadasz. Zautomatyzowany dobór próby może pomóc zminimalizować utratę próby poprzez wysyłanie zaproszeń do badania w mniejszych i częstszych partiach niż mógłby to zrobić jakikolwiek człowiek. Jest to technika, którą stosujemy już w przypadku definicji próbek, które nie są zbyt złożone. Ponadto w przyszłości mogą być wykorzystywane statystycznie oszacowane informacje o profilu, o ile takie algorytmy nie staną się nowym źródłem błędów (patrz wyżej).

Inną techniką mającą na celu ograniczenie negatywnych doświadczeń związanych z przerwami w wyświetlaniu i niepowodzeniami limitów jest routing. Są na to dwa podstawowe sposoby. Głupim sposobem, który prawdopodobnie wszyscy widzieliśmy gdzieś w przeszłości, jest trzymanie respondentów w niekończącym się przepływie ankiet, dopóki się nie zakwalifikują. Po dotarciu do strony końcowej ankiety, natychmiast otrzymujesz szansę zakwalifikowania się do kolejnego kwestionariusza. Jesteśmy dość sceptycznie nastawieni do tego podejścia, ponieważ może ono zagrozić motywacji respondentów i zachęcać do przekraczania prędkości i innych satysfakcjonujących zachowań.

Istnieje jednak mądrzejszy sposób myślenia o routingu. Zapraszasz członków panelu w staromodny sposób i mówisz im, że dostępna jest dla nich nowa ankieta. Po kliknięciu linku w zaproszeniu zostaną przekierowani do otwartej ankiety, która najlepiej pasuje do ich profilu. Nawet jeśli badanie, do którego zostali pierwotnie przypisani, zostanie zamknięte, będą mogli wziąć udział w kolejnej ankiecie. Dzięki tej metodzie kierowania ryzyko pogorszenia jakości próbki jest znacznie niższe, ponieważ przekierowany zostanie tylko niewielki nadmiar (z automatycznego pobierania próbek). Ponadto respondenci nie będą napotykać niekończących się sekwencji ankiet, ale będą odpowiadać tylko na jedną ankietę na raz. W każdym przypadku musisz mieć inteligentny algorytm, który śledzi wszystkie profile członków, którzy jeszcze nie odpowiedzieli, a także wszystkie definicje grup docelowych dostępnych badań i ostatecznie dokonuje idealnego dopasowania. W ten sposób zwiększysz motywację panelistów do uczestnictwa.

Podczas rozmowy kwalifikacyjnej

Każde badanie jest wyjątkowe. To sprawia, że naprawdę trudno jest zdefiniować ogólne miary kontroli jakości, które pasowałyby do wszystkich przypadków. Algorytmy mogą jednak pomóc w porównaniu jakości odpowiedzi na wywiad ze wszystkimi poprzednimi. Czy respondent przechodzi przez kwestionariusz znacznie szybciej niż inni? Czy odpowiedzi w polach tekstowych są krótsze lub zawierają bzdury? A co z różnicami w pytaniach siatki? Wszystkie te wskaźniki mogą rysować szerszy obraz i uruchamiać różne działania, jeśli zostanie osiągnięty określony próg. Możesz pozwolić algorytmowi na oznaczenie wywiadu do ręcznej kontroli, wyświetlenie ostrzeżenia respondentowi, wstawienie pytania typu “czerwony śledź” w celu odfiltrowania nieuważnych respondentów lub natychmiastowe usunięcie całego wywiadu z bazy danych.

Inną techniką jest celowe gruntowanie respondentów, aby podświadomie zwiększyć jakość ich odpowiedzi. W tym przypadku przed odpowiednimi pytaniami prezentowana jest strona pośrednia z przekąskami, aby wprowadzić respondenta we właściwy sposób myślenia o nadchodzącym zadaniu. Ponieważ ta technika nie jest równie skuteczna dla wszystkich respondentów, a może wydłużyć czas trwania wywiadu, algorytmy mogą pomóc w przedstawieniu odpowiednich podkładów tylko właściwym osobom w dokładnie odpowiednim momencie. Ponownie, techniki te należy stosować ostrożnie w odniesieniu do ogólnej jakości, ponieważ mogą one również wyrządzić pewne szkody.

Do tej pory mówiliśmy tylko o badaniach online, które nie wymagają dalszych wyjaśnień. Jednak inne metody gromadzenia danych również podlegają cyfryzacji i mogą korzystać z algorytmów. Pomyśl na przykład o wywiadach telefonicznych. Algorytmy mogą analizować głos respondenta i przeprowadzać analizę nastrojów podczas wywiadu. Informacje te mogą być nie tylko pomocne w kontekstualizacji informacji podczas późniejszej analizy danych, ale także stanowić cenną informację zwrotną dla ankietera podczas rozmowy z respondentem. Jednak, jak już wspomniano, naprawdę trudno jest zdefiniować miary pasujące do każdego badania.

Przetwarzanie danych

Po zebraniu wszystkich danych, zwykle należy wykonać jeszcze kilka kroków, zanim będzie można je przeanalizować. Pierwszy krok polega na oczyszczeniu danych, tj. usunięciu przypadków, które nie mogą być wykorzystane do analizy. Biorąc pod uwagę wszystkie powyższe kroki, nie powinno to już zająć zbyt wiele czasu i wysiłku. Następnym krokiem jest kodowanie wszystkich nieustrukturyzowanych danych, w szczególności otwartych odpowiedzi z pól tekstowych. Algorytmy mogą rozpoznawać, czy ma zastosowanie istniejący plan kodowania (np. lista marek w określonej kategorii) lub zostać przeszkolone w zakresie uczenia się i stosowania nowego planu kodowania. Różne języki mogą być automatycznie rozpoznawane i tłumaczone. Wreszcie, wszystkie dane mogą być ważone w celu dostosowania mniejszych rozbieżności w składzie lub dopasowania ich do różnych jednostek podstawy (np. czy informacja zwrotna jest reprezentatywna dla wszystkich mieszkańców lub wszystkich gospodarstw domowych).

I co z tego?

Niektóre z technik opisanych w tym artykule są już stosowane, inne wymagają jeszcze dopracowania. Oprócz tych “nisko wiszących owoców” istnieje wiele innych obszarów zastosowań, w których algorytmy mogą ułatwić sposób, w jaki pracujemy z danymi.

Cokolwiek robimy, dążymy do najlepszej możliwej jakości i wahamy się przed wdrożeniem metod, które mogą zagrozić naszym wysokim standardom. Jeśli chcesz dowiedzieć się więcej lub masz pytania, czekamy na kontakt.

English

Dansk

Nederlands

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Svenska