En este artículo, nos gustaría explorar los campos de aplicación de los algoritmos para ayudarnos a mejorar la calidad de nuestros datos. Antes de pasar a algunos ejemplos concretos, debemos destacar un aspecto importante a tener en cuenta al abordar la calidad de los datos de esta manera.
La información debe guiar nuestras acciones dándoles una estructura. Y la información sigue la estructura de los datos subyacentes. Por definición, las estructuras son estables y resisten las perturbaciones. Esta es exactamente la razón por la que creemos en el valor de una alta calidad de los datos. Si establece rutinas de negocio estables que se basan en datos o información erróneos, la mala calidad persistirá en sus acciones. Los datos tienen una gran longevidad, por lo que su calidad debe considerarse un activo que seguirá dando sus frutos en el futuro.
Un muy buen ejemplo de la longevidad de los datos son las muestras de entrenamiento para algoritmos. Cualquier sesgo en los datos de entrenamiento se reproducirá una y otra vez y posiblemente se amplificará por el algoritmo. Hemos visto muchos ejemplos aterradores de tales sesgos de máquinas en el pasado y apenas estamos empezando a comprender las implicaciones (por cierto, ¿alguna vez ha pensado en hablar con un recolector de datos como Norstat sobre muestras de entrenamiento para sus proyectos de aprendizaje automático?).
Nuestro punto aquí es que todos los algoritmos deben tener una alta calidad en sí mismos si quieren mejorar la calidad de los datos. Por el contrario, si los algoritmos son defectuosos, la calidad de los datos puede empeorar aún más. Y, por muy bien que funcionen los algoritmos algún día en el futuro, solo podrán ayudarnos a reducir una pérdida de calidad durante su procesamiento, pero nunca podrán convertir una entrada deficiente en una salida de alto valor.
Dicho esto, profundicemos en algunas áreas de cómo tales algoritmos podrían aplicarse algún día en la investigación de encuestas.
El reclutamiento para un Panel de Acceso en Línea debe considerarse la primera etapa del proceso de muestreo para su proyecto. Si no recluta con los más altos estándares para el panel, terminará con una fuente sesgada para extraer muestras del proyecto. No necesita más explicación que no se puede extraer una muestra imparcial de un panel sesgado. Por eso somos tan meticulosos en el reclutamiento de paneles. Pero, ¿cómo podrían ayudarnos los algoritmos a mejorar la calidad del reclutamiento?
Recientemente, ha habido informes sobre granjas de encuestas profesionales, donde se suscriben miembros falsos a paneles para reclamar incentivos a gran escala. Este fenómeno coincide con nuestra experiencia de que los paneles en línea se convierten repetidamente en un objetivo para los estafadores. No queremos revelar ningún detalle, pero tenemos rutinas algorítmicas automatizadas implementadas que previenen suscripciones fraudulentas a nuestro panel, señalan anomalías en el comportamiento de nuestros usuarios e informan de intentos sospechosos de canjear incentivos.
Muchos de nuestros miembros del panel se unieron hace más de una década y sus vidas han cambiado durante todos estos años, por supuesto. Todos ellos habrán envejecido. Algunos se casaron, otros se divorciaron. Algunos tuvieron hijos, mientras que los hijos de otros ya pueden haber dejado la familia. Algunos fueron ascendidos, otros se jubilaron. Algunos se mudaron a un nuevo hogar, en algunos casos incluso a otra ciudad. Pueden haber comprado coches nuevos y electrodomésticos nuevos. Pueden haber cambiado de banco, seguros y proveedor de teléfono. Lo que sea que haya sucedido en la vida de nuestros panelistas, tener información de perfil actualizada nos permite extraer muestras más precisas.
Ya pedimos a nuestros miembros del panel que actualicen todas sus variables de perfil regularmente; por lo que no hay necesidad de un algoritmo más sofisticado aquí. Sin embargo, con más de 500 puntos de datos para la mayoría de nuestros panelistas, parte de la información aún puede no ser precisa y básicamente tenemos que buscar valores atípicos. Si bien el método univariante es bastante simple (“muéstrame todos los miembros cuya edad sea superior a 120 años”), los enfoques multivariantes son estadísticamente mucho más complejos (“muéstrame todos los miembros cuya combinación de diferentes variables sea inusual”). Por ejemplo, si tiene una persona de 16 años con un ingreso anual de 50.000 euros, la edad y el ingreso probablemente estén dentro del rango de valores normales. Sin embargo, la combinación será un valor atípico visible en el diagrama de dispersión. Los algoritmos pueden ayudar a identificar y señalar estos valores atípicos.
Los algoritmos también pueden ayudar a estimar la probabilidad de ciertos valores perdidos. Por ejemplo, si quisiéramos dirigirnos específicamente a miembros del panel con ingresos altos para un estudio, pero encontramos una gran cantidad de panelistas que no respondieron a esta pregunta de perfil, necesitamos estimar sus ingresos basándonos en otras preguntas. Podríamos, por ejemplo, invitar a aquellos que poseen una casa, tienen más de un coche en su hogar o viajan muy a menudo. Análogamente, podríamos calcular la probabilidad de cualquier otra variable perdida, dadas las correlaciones conocidas con lo que tenemos. Esto nos permitiría extraer nuestras muestras con mayor precisión.
¡Pero cuidado! Este es uno de los casos que teníamos en mente al escribir nuestra advertencia en la introducción. Tenemos que asegurarnos de que el algoritmo no perjudique la calidad general de nuestra muestra. Por ejemplo, si realmente invitamos a viajeros frecuentes en lugar de a personas con ingresos altos, podemos descubrir que nuestra muestra está sesgada: sorprendentemente, la mayoría de nuestros encuestados con ingresos altos viajarán con frecuencia. Por lo tanto, tendríamos que asegurarnos de que la calidad de nuestro modelo predictivo sea lo suficientemente buena como para mejorar la calidad general de nuestra investigación.
Estamos convencidos de que existe un fuerte vínculo entre la motivación de nuestros miembros del panel y la calidad de sus respuestas. En nuestros próximos ejemplos, los algoritmos apoyan nuestros esfuerzos para brindar a los panelistas una mejor experiencia de membresía y, de esta manera, contribuir a la calidad de los datos.
El propósito de participar en un panel es realizar encuestas. Todo lo que aumenta la probabilidad de participar en encuestas también contribuye de alguna manera a una experiencia de membresía positiva. Un factor importante para aumentar las tasas de respuesta es el momento adecuado para enviar invitaciones. Un lunes por la mañana, cuando su bandeja de entrada de correo electrónico está desbordada, probablemente preferiría ignorar una invitación a una encuesta para hacer frente a las cosas más urgentes. Por el contrario, justo después del almuerzo, es posible que todavía esté de humor para un descanso, por lo que una distracción puede ser muy bienvenida. En términos generales, los algoritmos podrían ayudarnos a identificar la hora del día adecuada para cada panelista y posponer las notificaciones a momentos en los que es probable que reciban más atención.
Esta técnica puede ir mucho más allá de simplemente usar la hora del día y también incluir otros datos, como patrones de uso de la aplicación del panel (por ejemplo, geolocalización, giroscopio). Por ejemplo, si los miembros del panel giran sus teléfonos al azar en la mano mientras están en casa, pueden experimentar un tiempo de inactividad y tener una mayor probabilidad de responder a las notificaciones push en ese momento.
Estrechamente relacionado con esto está la automatización del muestreo. Poco es más frustrante para los panelistas que ser invitados a una encuesta que ya ha sido cerrada, ya sea parcialmente para una cuota particular o completamente. Por esta razón, normalmente se envían muestras cada vez más pequeñas a medida que avanza el campo para acercarse al número deseado de completados sin desbordar las cuotas. Por razones obvias, esto requiere bastante mano de obra y también puede volverse bastante complejo cuantas más cuotas tenga. El muestreo automatizado puede ayudar a minimizar la pérdida de muestra enviando invitaciones a encuestas en lotes más pequeños y frecuentes de lo que cualquier muestreador humano podría hacer. Esta es una técnica que ya aplicamos para definiciones de muestra que no son excesivamente complejas. Además, la información de perfil estimada estadísticamente puede usarse en el futuro, siempre y cuando dichos algoritmos no se conviertan en una nueva fuente de fallos (ver arriba).
Otra técnica para reducir la experiencia negativa de los “screen outs” y los fallos de cuota es el enrutamiento. Hay dos formas fundamentales de abordarlo. La forma un tanto torpe, que probablemente todos hemos visto en el pasado, es mantener a los encuestados en un flujo interminable de filtros de encuestas hasta que califiquen. Después de llegar a la página final de una encuesta, inmediatamente tiene la oportunidad de calificar en otro cuestionario. Somos bastante escépticos con respecto a este enfoque, ya que puede comprometer la motivación de los encuestados y fomentar la velocidad y otros comportamientos de respuesta satisfactorios.
Sin embargo, hay una forma más inteligente de pensar en el enrutamiento. Se invita a los miembros del panel de la manera tradicional y se les informa de que hay una nueva encuesta disponible para ellos. Una vez que hacen clic en el enlace de la invitación, se les redirige a una encuesta abierta que mejor se adapta a su perfil. Incluso si el estudio al que fueron asignados originalmente está cerrado, se les permitirá participar en otra encuesta. Con este método de enrutamiento, el riesgo de comprometer la calidad de la muestra es considerablemente menor, ya que solo se redirigirá un pequeño excedente (del muestreo automatizado). Además, los encuestados no se encontrarán con secuencias interminables de filtros de encuestas, sino que responderán a una sola encuesta a la vez. En cualquier caso, es necesario disponer de un algoritmo inteligente que realice un seguimiento de todos los perfiles de los miembros que aún no han respondido, de todas las definiciones de grupos objetivo de los estudios disponibles y, finalmente, realice una combinación perfecta. De este modo, mejoraría la motivación de los panelistas para participar.
Cada estudio es único. Esto hace que sea realmente difícil definir medidas generales de control de calidad que se adapten a todos los casos. Sin embargo, los algoritmos pueden ayudar a comparar la calidad de respuesta de una entrevista con todas las anteriores. ¿Un encuestado se mueve considerablemente más rápido por el cuestionario que otros? ¿Las respuestas en los cuadros de texto son más cortas o contienen tonterías? ¿Y qué pasa con la varianza en las preguntas de cuadrícula? Todos estos indicadores pueden dibujar una imagen más amplia y desencadenar diferentes acciones si se alcanza un cierto umbral. Podría dejar que el algoritmo marque la entrevista para una inspección manual, mostrar una advertencia al encuestado, insertar una pregunta trampa para eliminar a los encuestados desatentos o eliminar la entrevista completa de la base de datos de inmediato.
Otra técnica es el cebado deliberado de los encuestados para impulsar subconscientemente la calidad de sus respuestas. Aquí se presenta una página intermedia con contenido fácil de digerir antes de las preguntas relevantes para que el encuestado se ponga en la mentalidad adecuada para la tarea próxima. Como esta técnica no es igualmente efectiva para todos los encuestados, pero puede inflar la duración de una entrevista, los algoritmos pueden ayudar a presentar los cebadores adecuados solo a las personas adecuadas en el momento exacto. Una vez más, estas técnicas deben aplicarse con cuidado con respecto a la calidad general, ya que también pueden causar algún daño.
Hasta ahora, solo hemos hablado de investigación en línea, lo cual no necesita más explicación. Sin embargo, otros métodos de recopilación de datos también están sujetos a la digitalización y pueden beneficiarse de los algoritmos. Piense en las entrevistas telefónicas, por ejemplo. Los algoritmos podrían analizar la voz del encuestado y realizar un análisis de sentimientos durante la entrevista. Esta información no solo puede ser útil para contextualizar la información al analizar los datos posteriormente, sino también para dar una valiosa retroalimentación al entrevistador mientras habla con el encuestado. Sin embargo, como se ha dicho, es realmente difícil definir medidas que se adapten a cada estudio.
Una vez recopilados todos los datos, normalmente hay que dar algunos pasos más antes de poder analizarlos. El primer paso consiste en limpiar los datos, es decir, eliminar los casos que no pueden utilizarse para el análisis. Dados todos los pasos anteriores, esto ya no debería llevar demasiado tiempo ni esfuerzo. El siguiente paso es codificar todos los datos no estructurados, especialmente las respuestas abiertas de los cuadros de texto. Los algoritmos pueden reconocer si se aplica un plan de codificación existente (por ejemplo, una lista de marcas en una determinada categoría) o ser entrenados para aprender y aplicar un nuevo plan de codificación. Los diferentes idiomas pueden reconocerse y traducirse automáticamente. Finalmente, todos los datos pueden ponderarse para ajustar pequeñas discrepancias en la composición o para ajustarlos a diferentes unidades de la base (por ejemplo, si la retroalimentación es representativa para todos los habitantes o todos los hogares).
Algunas de las técnicas descritas en este artículo ya están en marcha, otras aún están por desarrollar. Y además de estas “frutas al alcance de la mano”, hay muchas otras áreas de aplicación donde los algoritmos pueden facilitar la forma en que trabajamos con los datos.
Hagamos lo que hagamos, nos esforzamos por la mejor calidad posible y dudamos en implementar métodos que puedan comprometer nuestros altos estándares. Nos encantaría saber de usted si desea obtener más información o tiene alguna pregunta.
Nuestra completa solución de recopilación de datos le asiste en cada etapa, desde la definición de su público objetivo hasta la elaboración de guiones de encuestas y la entrega de resultados. Gestionada con experiencia, flexibilidad y teniendo en cuenta sus necesidades específicas.