Graphic of different choices

Come possono gli algoritmi aiutarci a migliorare la qualità dei dati?

In questo articolo vorremmo esplorare i campi di applicazione degli algoritmi per aiutarci a migliorare la qualità dei dati. Prima di passare ad alcuni esempi concreti, dobbiamo sottolineare un aspetto importante da tenere presente quando si affronta la qualità dei dati in questo modo.

Qualità degli algoritmi = qualità dei dati

L’intuizione deve guidare le nostre azioni dando loro una struttura. E le intuizioni seguono la struttura dei dati sottostanti. Per definizione, le strutture sono stabili e resistono alle perturbazioni. Questo è esattamente il motivo per cui crediamo nel valore dell’alta qualità dei dati. Se si stabiliscono routine aziendali stabili basate su dati o intuizioni errate, la scarsa qualità persisterà nelle azioni. I dati hanno un’elevata longevità e quindi la loro qualità deve essere considerata come un bene che continua a ripagare in futuro.

Un ottimo esempio di longevità dei dati sono i campioni di addestramento per gli algoritmi. Qualsiasi distorsione nei dati di addestramento verrà riprodotta più e più volte e potrebbe essere amplificata dall’algoritmo. In passato abbiamo visto molti esempi spaventosi di questi pregiudizi delle macchine e stiamo appena iniziando a comprenderne le implicazioni (a proposito, avete mai pensato di rivolgervi a un raccoglitore di dati come Norstat per ottenere campioni di formazione per i vostri progetti di apprendimento automatico?)

Il punto è che tutti gli algoritmi devono avere una qualità elevata se vogliono migliorare la qualità dei dati. Al contrario, se gli algoritmi sono difettosi, la qualità dei dati può peggiorare ulteriormente. E, a prescindere dalla bontà degli algoritmi che un giorno potranno funzionare, essi potranno solo aiutarci a ridurre la perdita di qualità durante l’elaborazione, ma non saranno mai in grado di trasformare un input scadente in un output di alto valore.

Detto questo, analizziamo alcune aree in cui tali algoritmi potrebbero un giorno essere applicati nella ricerca sui sondaggi.

Reclutamento del pannello

Il reclutamento in un panel di accesso online deve essere visto come la prima fase del processo di campionamento per il vostro progetto. Se non reclutate il panel con gli standard più elevati, vi ritroverete con una fonte distorta per disegnare i campioni del progetto. Non c’è bisogno di ulteriori spiegazioni per capire che non è possibile ricavare un campione imparziale da un panel parziale. Ecco perché siamo così meticolosi nel reclutamento dei panel. Ma come possono gli algoritmi aiutarci a migliorare la qualità del reclutamento?

  1. Mantenere un pannello in forma richiede decisioni molto complesse che possono includere compromessi tra diversi parametri. Ad esempio, dobbiamo tenere d’occhio la composizione del panel e sostituire le disiscrizioni. Allo stesso tempo, dobbiamo prevedere le dimensioni dei pannelli necessarie per far fronte a tutte le richieste nel prossimo futuro. E siamo limitati dal budget disponibile e dal volume di reclutamento fattibile in un certo periodo di tempo. Quindi, come dovremmo allocare le nostre risorse? Gli algoritmi possono supportare le nostre considerazioni indicando i dati demografici e i canali di reclutamento più importanti su cui concentrarsi in questo momento e aiutandoci a costruire un panel equilibrato con meno sforzo.
  2. Una volta che le persone si iscrivono al panel, la loro identità deve essere verificata, semplicemente perché dobbiamo assicurarci che queste persone siano chi dicono di essere. Se li reclutiamo per telefono, possiamo essere certi di parlare con una persona reale. Anche se può non essere così facile come sembra al telefono, la verifica dell’identità degli utenti online è sicuramente qualcosa che non si può concludere al primo contatto. Deve invece essere visto come un processo, in cui si continua ad acquisire fiducia nell’identità di un membro dopo essersi assicurati che alcuni requisiti di base siano soddisfatti fin dall’inizio. Gli algoritmi possono aiutarci a velocizzare questo processo includendo più punti di dati in un’analisi molto più complessa. Tali algoritmi possono anche rivelare se due persone diverse condividono lo stesso indirizzo e-mail, computer o account di pannello.
  3. La verifica degli utenti va di pari passo con il controllo dei duplicati. A un livello molto superficiale, ciò avviene confrontando le informazioni di identificazione personale dei diversi membri, come nomi, indirizzi e-mail o IP. Ma vale sempre la pena di dare un’occhiata più approfondita a profili simili, modelli di risposta simili e possibili connessioni tra profili o dispositivi sospetti. Anche in questo caso, poiché trovare l’ago nel pagliaio può essere molto lungo e complesso, l’automazione può aumentare la frequenza e la sofisticazione di tali controlli di qualità.

Recentemente sono stati segnalati casi di fattorie di sondaggi professionali, in cui falsi membri vengono iscritti ai panel per richiedere incentivi su larga scala. Questo fenomeno coincide con la nostra esperienza, secondo la quale i panel online diventano ripetutamente un bersaglio per i truffatori. Non vogliamo rivelare alcun dettaglio, ma disponiamo di routine algoritmiche automatizzate che prevengono le iscrizioni fraudolente al nostro panel, segnalano le anomalie nel comportamento dei nostri utenti e segnalano i tentativi sospetti di riscattare gli incentivi.

Profilazione del pannello

Molti dei membri del nostro panel si sono uniti a noi più di dieci anni fa e le loro vite sono cambiate in tutti questi anni, ovviamente. Tutti loro saranno diventati anziani. Alcuni si sono sposati, altri hanno divorziato. Alcuni hanno figli, mentre i figli di altri possono aver già lasciato la famiglia. Alcuni sono stati promossi, altri sono andati in pensione. Alcuni si sono trasferiti in una nuova casa, in alcuni casi addirittura in un’altra città. Potrebbero aver acquistato nuove auto e nuovi elettrodomestici. Potrebbero aver cambiato banca, assicurazione e gestore telefonico. Qualunque cosa sia accaduta nella vita dei nostri panelisti, avere informazioni aggiornate sul profilo ci permette di estrarre campioni più accurati.

Chiediamo già ai membri del nostro panel di aggiornare regolarmente tutte le variabili del loro profilo, quindi non c’è bisogno di un algoritmo più sofisticato. Tuttavia, con oltre 500 punti di dati per la maggior parte dei nostri panelisti, alcune informazioni potrebbero non essere accurate e dobbiamo cercare gli outlier. Mentre il metodo univariato è abbastanza semplice (“mostrami tutti i membri la cui età è superiore a 120 anni”), gli approcci multivariati sono statisticamente molto più complessi (“mostrami tutti i membri la cui combinazione di diverse variabili è insolita”). Ad esempio, se si tratta di una persona di 16 anni con un reddito annuo di 50.000 euro, l’età e il reddito rientrano probabilmente nell’intervallo dei valori normali. Tuttavia, la combinazione sarà un outlier visibile sul grafico di dispersione. Gli algoritmi possono aiutare a identificare e segnalare questi valori anomali.

Gli algoritmi possono anche aiutare a stimare la probabilità di alcuni valori mancanti. Ad esempio, se per uno studio desideriamo rivolgerci specificamente a membri del panel con un reddito elevato, ma incontriamo una grande quantità di panelisti che non hanno risposto a questa domanda di profilo, dobbiamo stimare il loro reddito in base ad altre domande. Potremmo, ad esempio, invitare coloro che possiedono una casa, hanno più di un’auto in casa o viaggiano molto spesso. Analogamente, potremmo calcolare la probabilità di qualsiasi altra variabile mancante, date le correlazioni note con ciò che abbiamo. Questo ci permetterebbe di disegnare i nostri campioni in modo più preciso.

Ma attenzione! Questo è uno dei casi che avevamo in mente quando abbiamo scritto il nostro disclaimer nell’introduzione. Dobbiamo assicurarci che l’algoritmo non danneggi la qualità generale del nostro campione. Ad esempio, se invitiamo viaggiatori abituali invece di persone con un reddito elevato, potremmo scoprire che il nostro campione è distorto: sorprendentemente, la maggior parte dei nostri intervistati con un reddito elevato viaggerà spesso. Pertanto, dobbiamo assicurarci che la qualità del nostro modello predittivo sia abbastanza buona da migliorare la qualità complessiva della nostra ricerca.

Manutenzione del pannello

Siamo convinti che esista un forte legame tra la motivazione dei membri del panel e la qualità delle loro risposte. Nei prossimi esempi, gli algoritmi supportano i nostri sforzi per offrire ai panelisti una migliore esperienza di iscrizione e in questo modo contribuiscono alla qualità dei dati.

Lo scopo della partecipazione a un panel è la realizzazione di sondaggi. Tutto ciò che aumenta il gradimento della partecipazione ai sondaggi contribuisce in qualche modo a rendere positiva l’esperienza dei soci. Un fattore importante per aumentare i tassi di risposta è il giusto tempismo nell’invio degli inviti. Il lunedì mattina, quando la casella di posta elettronica è stracolma, probabilmente preferireste ignorare l’invito a un sondaggio per occuparvi delle cose più urgenti. Al contrario, subito dopo pranzo, potreste avere ancora voglia di fare una pausa, quindi un diversivo potrebbe essere molto gradito. In generale, gli algoritmi potrebbero aiutarci a individuare il momento giusto per ogni panelista e a rimandare le notifiche a momenti in cui è probabile che ricevano maggiore attenzione.

Questa tecnica può andare ben oltre il semplice utilizzo del giorno e includere anche altri dati, come i modelli di utilizzo dell’app del pannello (ad esempio, geolocalizzazione, giroscopio). Ad esempio, se i membri del panel si trovano casualmente con il telefono in mano mentre sono a casa, possono sperimentare un tempo di inattività e avere una maggiore probabilità di rispondere alle notifiche push in quel momento.

Campionamento

Strettamente correlata a questo aspetto è l’automazione del campionamento. Per i pannellisti c’è poco di più frustrante che essere invitati a un sondaggio che è già stato chiuso, in parte per una particolare quota o completamente. Per questo motivo, di solito si inviano campioni sempre più piccoli man mano che il campo avanza, per avvicinarsi al numero di compilazioni desiderato senza arrivare a quote eccessive. Per ovvie ragioni, si tratta di un’operazione che richiede molto lavoro e che può diventare tanto più complessa quanto più numerose sono le quote. Il campionamento automatizzato può contribuire a ridurre al minimo la perdita di campioni, inviando gli inviti al sondaggio in lotti più piccoli e più frequenti di quanto potrebbe fare un campionatore umano. Questa è una tecnica che applichiamo già per le definizioni di campioni non eccessivamente complessi. Inoltre, in futuro potranno essere utilizzate informazioni sul profilo stimate statisticamente, a condizione che tali algoritmi non diventino una nuova fonte di difetti (vedi sopra).

Un’altra tecnica per ridurre l’esperienza negativa degli screen out e dei fallimenti delle quote è il routing. Ci sono due modi fondamentali per farlo. Il modo più stupido, che probabilmente abbiamo visto tutti in passato, è quello di mantenere i rispondenti in un flusso infinito di intervistatori finché non si qualificano. Dopo aver raggiunto la pagina finale di un sondaggio, si ha immediatamente la possibilità di qualificarsi in un altro questionario. Siamo piuttosto scettici su questo approccio, perché potrebbe compromettere la motivazione degli intervistati e incoraggiare l’eccesso di velocità e altri comportamenti di risposta soddisfacenti.

Tuttavia, esiste un modo più intelligente di pensare al routing. Invitate i membri del panel in modo tradizionale e dite loro che è disponibile un nuovo sondaggio per loro. Una volta cliccato sul link dell’invito, l’utente viene indirizzato al sondaggio aperto che meglio corrisponde al suo profilo. Anche se lo studio a cui sono stati originariamente assegnati viene chiuso, potranno partecipare a un altro sondaggio. Con questo metodo di instradamento, il rischio di compromettere la qualità del campione è notevolmente ridotto, poiché solo un piccolo overflow (dal campionamento automatico) verrà reindirizzato. Inoltre, i rispondenti non si imbatteranno in sequenze interminabili di questionari di selezione, ma risponderanno a un solo sondaggio alla volta. In ogni caso, è necessario disporre di un algoritmo intelligente che tenga traccia di tutti i profili dei membri che non hanno ancora risposto, nonché di tutte le definizioni dei gruppi target degli studi disponibili e che infine crei un abbinamento perfetto. In questo modo, migliorerete la motivazione dei partecipanti al panel a partecipare.

Durante il colloquio

Ogni studio è unico. Questo rende molto difficile definire misure generali di controllo della qualità che si adattino a tutti i casi. Tuttavia, gli algoritmi possono aiutare a confrontare la qualità della risposta di un’intervista con tutte quelle precedenti. Un intervistato si muove molto più velocemente nel questionario rispetto agli altri? Le risposte nelle caselle di testo sono più brevi o contengono frasi senza senso? E che dire della varianza delle domande della griglia? Tutti questi indicatori possono disegnare un quadro più ampio e innescare azioni diverse, se viene raggiunta una certa soglia. Si può lasciare che l’algoritmo segnali l’intervista per un’ispezione manuale, mostri un avvertimento all’intervistato, inserisca una domanda “red herring” per escludere gli intervistati disattenti o rimuova subito l’intera intervista dalla banca dati.

Un’altra tecnica è il priming deliberato degli intervistati per aumentare inconsciamente la qualità delle loro risposte. In questo caso, prima delle domande rilevanti viene presentata una pagina intermedia con contenuti che possono essere spuntati, in modo da far entrare l’intervistato nella mentalità giusta per il compito che lo attende. Poiché questa tecnica non è ugualmente efficace per tutti gli intervistati e può allungare la durata di un’intervista, gli algoritmi possono aiutare a presentare gli incipit giusti solo alle persone giuste nel momento giusto. Anche in questo caso, queste tecniche devono essere applicate con cautela per quanto riguarda la qualità complessiva, in quanto possono anche causare danni.

Finora abbiamo parlato solo di ricerca online, che non ha bisogno di ulteriori spiegazioni. Tuttavia, anche altri metodi di raccolta dei dati sono soggetti alla digitalizzazione e possono beneficiare degli algoritmi. Pensate alle interviste telefoniche, ad esempio. Gli algoritmi potrebbero analizzare la voce dell’intervistato ed eseguire un’analisi del sentiment durante l’intervista. Queste informazioni possono essere utili non solo per contestualizzare le informazioni quando si analizzano i dati in seguito, ma anche per fornire un feedback prezioso all’intervistatore mentre parla con l’intervistato. Tuttavia, come detto, è davvero difficile definire misure adatte a tutti gli studi.

Elaborazione dati

Dopo aver raccolto tutti i dati, di solito è necessario eseguire alcuni altri passaggi prima di poterli analizzare. La prima fase consiste nella pulizia dei dati, ossia nella rimozione dei casi che non possono essere utilizzati per l’analisi. Considerati tutti i passaggi sopra descritti, questo non dovrebbe richiedere più molto tempo e fatica. La fase successiva consiste nel codificare tutti i dati non strutturati, in particolare le risposte aperte delle caselle di testo. Gli algoritmi possono riconoscere se si applica un piano di codici esistente (ad esempio, l’elenco dei marchi di una determinata categoria) o essere addestrati ad apprendere e applicare un nuovo piano di codici. Le diverse lingue possono essere riconosciute e tradotte automaticamente. Infine, tutti i dati possono essere ponderati per correggere piccole discrepanze nella composizione o per adattarli a diverse unità di base (ad esempio, se il feedback è rappresentativo di tutti gli abitanti o di tutte le famiglie).

E allora?

Alcune delle tecniche descritte in questo articolo sono già in atto, altre sono ancora da sviluppare. E oltre a questi “frutti a portata di mano”, ci sono molte altre aree di applicazione in cui gli algoritmi possono facilitare il modo in cui lavoriamo con i dati.

Qualsiasi cosa facciamo, cerchiamo di ottenere la migliore qualità possibile ed esitiamo a implementare metodi che possano compromettere i nostri standard elevati. Se volete saperne di più o avete delle domande, vi invitiamo a contattarci.

Raccolta dati semplificata

La nostra soluzione completa per la raccolta dei dati ti supporta in ogni fase, dalla definizione del pubblico target alla stesura del sondaggio e alla consegna dei risultati. Gestito con competenza, flessibilità e tenendo conto delle tue esigenze.

Per saperne di più