¿Cómo pueden ayudarnos los algoritmos a mejorar la calidad de los datos?

Calidad de los algoritmos = calidad de los datos

La información debe guiar nuestras acciones dándoles una estructura. Y la información sigue la estructura de los datos subyacentes. Por definición, las estructuras son estables y resisten las perturbaciones. Esta es exactamente la razón por la que creemos en el valor de una alta calidad de los datos. Si establece rutinas de negocio estables que se basan en datos o información erróneos, la mala calidad persistirá en sus acciones. Los datos tienen una gran longevidad, por lo que su calidad debe considerarse un activo que seguirá dando sus frutos en el futuro.

Un muy buen ejemplo de la longevidad de los datos son las muestras de entrenamiento para algoritmos. Cualquier sesgo en los datos de entrenamiento se reproducirá una y otra vez y posiblemente se amplificará por el algoritmo. Hemos visto muchos ejemplos aterradores de tales sesgos de máquinas en el pasado y apenas estamos empezando a comprender las implicaciones (por cierto, ¿alguna vez ha pensado en hablar con un recolector de datos como Norstat sobre muestras de entrenamiento para sus proyectos de aprendizaje automático?).

Nuestro punto aquí es que todos los algoritmos deben tener una alta calidad en sí mismos si quieren mejorar la calidad de los datos. Por el contrario, si los algoritmos son defectuosos, la calidad de los datos puede empeorar aún más. Y, por muy bien que funcionen los algoritmos algún día en el futuro, solo podrán ayudarnos a reducir una pérdida de calidad durante su procesamiento, pero nunca podrán convertir una entrada deficiente en una salida de alto valor.

Dicho esto, profundicemos en algunas áreas de cómo tales algoritmos podrían aplicarse algún día en la investigación de encuestas.

Reclutamiento de paneles

El reclutamiento para un Panel de Acceso en Línea debe considerarse la primera etapa del proceso de muestreo para su proyecto. Si no recluta con los más altos estándares para el panel, terminará con una fuente sesgada para extraer muestras del proyecto. No necesita más explicación que no se puede extraer una muestra imparcial de un panel sesgado. Por eso somos tan meticulosos en el reclutamiento de paneles. Pero, ¿cómo podrían ayudarnos los algoritmos a mejorar la calidad del reclutamiento?

Mantener un panel en forma requiere decisiones muy complejas que pueden incluir compensaciones entre diferentes parámetros. Por ejemplo, tenemos que vigilar la composición del panel y reemplazar las bajas. Al mismo tiempo, tenemos que pronosticar los tamaños de panel necesarios para hacer frente a todas las solicitudes en un futuro próximo. Y estamos restringidos por el presupuesto disponible y el volumen de reclutamiento factible durante un cierto período de tiempo. Entonces, ¿cómo debemos asignar nuestros recursos? Los algoritmos pueden apoyar nuestras consideraciones señalando los datos demográficos y los canales de reclutamiento más importantes en los que centrarse ahora mismo y ayudarnos a construir un panel equilibrado con menos esfuerzo.
Una vez que las personas se suscriben al panel, su identidad debe ser verificada, simplemente porque necesitamos asegurarnos de que estas personas son quienes dicen ser. Si las reclutamos por teléfono, podemos estar bastante seguros de que realmente hablamos con una persona real. Si bien todavía puede no ser tan fácil como parece por teléfono, verificar la identidad de los usuarios en línea es definitivamente algo que no se puede concluir durante el primer contacto. En cambio, debe verse como un proceso, donde se gana confianza sobre la identidad de un miembro después de haberse asegurado de que se cumplen algunos requisitos básicos desde el principio. Los algoritmos pueden ayudarnos a acelerar ese proceso al incluir más puntos de datos en un análisis mucho más complejo. Dichos algoritmos también pueden revelar si dos personas diferentes comparten la misma dirección de correo electrónico, ordenador o cuenta de panel.
La verificación de usuarios va de la mano con la comprobación de duplicados. A un nivel muy superficial, esto se hace comparando la información de identificación personal de diferentes miembros, como nombres, correos electrónicos o direcciones IP. Pero siempre vale la pena echar un vistazo más profundo a perfiles similares, patrones de respuesta similares y posibles conexiones entre perfiles o dispositivos sospechosos. Una vez más, como encontrar la aguja en el pajar puede ser muy lento y complejo, la automatización puede aumentar la frecuencia y la sofisticación de estas comprobaciones de calidad.

Recientemente, ha habido informes sobre granjas de encuestas profesionales, donde se suscriben miembros falsos a paneles para reclamar incentivos a gran escala. Este fenómeno coincide con nuestra experiencia de que los paneles en línea se convierten repetidamente en un objetivo para los estafadores. No queremos revelar ningún detalle, pero tenemos rutinas algorítmicas automatizadas implementadas que previenen suscripciones fraudulentas a nuestro panel, señalan anomalías en el comportamiento de nuestros usuarios e informan de intentos sospechosos de canjear incentivos.

Perfilado de paneles

Muchos de nuestros miembros del panel se unieron hace más de una década y sus vidas han cambiado durante todos estos años, por supuesto. Todos ellos habrán envejecido. Algunos se casaron, otros se divorciaron. Algunos tuvieron hijos, mientras que los hijos de otros ya pueden haber dejado la familia. Algunos fueron ascendidos, otros se jubilaron. Algunos se mudaron a un nuevo hogar, en algunos casos incluso a otra ciudad. Pueden haber comprado coches nuevos y electrodomésticos nuevos. Pueden haber cambiado de banco, seguros y proveedor de teléfono. Lo que sea que haya sucedido en la vida de nuestros panelistas, tener información de perfil actualizada nos permite extraer muestras más precisas.

Ya pedimos a nuestros miembros del panel que actualicen todas sus variables de perfil regularmente; por lo que no hay necesidad de un algoritmo más sofisticado aquí. Sin embargo, con más de 500 puntos de datos para la mayoría de nuestros panelistas, parte de la información aún puede no ser precisa y básicamente tenemos que buscar valores atípicos. Si bien el método univariante es bastante simple (“muéstrame todos los miembros cuya edad sea superior a 120 años”), los enfoques multivariantes son estadísticamente mucho más complejos (“muéstrame todos los miembros cuya combinación de diferentes variables sea inusual”). Por ejemplo, si tiene una persona de 16 años con un ingreso anual de 50.000 euros, la edad y el ingreso probablemente estén dentro del rango de valores normales. Sin embargo, la combinación será un valor atípico visible en el diagrama de dispersión. Los algoritmos pueden ayudar a identificar y señalar estos valores atípicos.

Los algoritmos también pueden ayudar a estimar la probabilidad de ciertos valores perdidos. Por ejemplo, si quisiéramos dirigirnos específicamente a miembros del panel con ingresos altos para un estudio, pero encontramos una gran cantidad de panelistas que no respondieron a esta pregunta de perfil, necesitamos estimar sus ingresos basándonos en otras preguntas. Podríamos, por ejemplo, invitar a aquellos que poseen una casa, tienen más de un coche en su hogar o viajan muy a menudo. Análogamente, podríamos calcular la probabilidad de cualquier otra variable perdida, dadas las correlaciones conocidas con lo que tenemos. Esto nos permitiría extraer nuestras muestras con mayor precisión.

¡Pero cuidado! Este es uno de los casos que teníamos en mente al escribir nuestra advertencia en la introducción. Tenemos que asegurarnos de que el algoritmo no perjudique la calidad general de nuestra muestra. Por ejemplo, si realmente invitamos a viajeros frecuentes en lugar de a personas con ingresos altos, podemos descubrir que nuestra muestra está sesgada: sorprendentemente, la mayoría de nuestros encuestados con ingresos altos viajarán con frecuencia. Por lo tanto, tendríamos que asegurarnos de que la calidad de nuestro modelo predictivo sea lo suficientemente buena como para mejorar la calidad general de nuestra investigación.

Mantenimiento del panel

Estamos convencidos de que existe un fuerte vínculo entre la motivación de nuestros miembros del panel y la calidad de sus respuestas. En nuestros próximos ejemplos, los algoritmos apoyan nuestros esfuerzos para brindar a los panelistas una mejor experiencia de membresía y, de esta manera, contribuir a la calidad de los datos.

El propósito de participar en un panel es realizar encuestas. Todo lo que aumenta la probabilidad de participar en encuestas también contribuye de alguna manera a una experiencia de membresía positiva. Un factor importante para aumentar las tasas de respuesta es el momento adecuado para enviar invitaciones. Un lunes por la mañana, cuando su bandeja de entrada de correo electrónico está desbordada, probablemente preferiría ignorar una invitación a una encuesta para hacer frente a las cosas más urgentes. Por el contrario, justo después del almuerzo, es posible que todavía esté de humor para un descanso, por lo que una distracción puede ser muy bienvenida. En términos generales, los algoritmos podrían ayudarnos a identificar la hora del día adecuada para cada panelista y posponer las notificaciones a momentos en los que es probable que reciban más atención.

Esta técnica puede ir mucho más allá de simplemente usar la hora del día y también incluir otros datos, como patrones de uso de la aplicación del panel (por ejemplo, geolocalización, giroscopio). Por ejemplo, si los miembros del panel giran sus teléfonos al azar en la mano mientras están en casa, pueden experimentar un tiempo de inactividad y tener una mayor probabilidad de responder a las notificaciones push en ese momento.

Muestreo

Estrechamente relacionado con esto está la automatización del muestreo. Poco es más frustrante para los panelistas que ser invitados a una encuesta que ya ha sido cerrada, ya sea parcialmente para una cuota particular o completamente. Por esta razón, normalmente se envían muestras cada vez más pequeñas a medida que avanza el campo para acercarse al número deseado de completados sin desbordar las cuotas. Por razones obvias, esto requiere bastante mano de obra y también puede volverse bastante complejo cuantas más cuotas tenga. El muestreo automatizado puede ayudar a minimizar la pérdida de muestra enviando invitaciones a encuestas en lotes más pequeños y frecuentes de lo que cualquier muestreador humano podría hacer. Esta es una técnica que ya aplicamos para definiciones de muestra que no son excesivamente complejas. Además, la información de perfil estimada estadísticamente puede usarse en el futuro, siempre y cuando dichos algoritmos no se conviertan en una nueva fuente de fallos (ver arriba).

Otra técnica para reducir la experiencia negativa de los “screen outs” y los fallos de cuota es el enrutamiento. Hay dos formas fundamentales de abordarlo. La forma un tanto torpe, que probablemente todos hemos visto en el pasado, es mantener a los encuestados en un flujo interminable de filtros de encuestas hasta que califiquen. Después de llegar a la página final de una encuesta, inmediatamente tiene la oportunidad de calificar en otro cuestionario. Somos bastante escépticos con respecto a este enfoque, ya que puede comprometer la motivación de los encuestados y fomentar la velocidad y otros comportamientos de respuesta satisfactorios.

Sin embargo, hay una forma más inteligente de pensar en el enrutamiento. Se invita a los miembros del panel de la manera tradicional y se les informa de que hay una nueva encuesta disponible para ellos. Una vez que hacen clic en el enlace de la invitación, se les redirige a una encuesta abierta que mejor se adapta a su perfil. Incluso si el estudio al que fueron asignados originalmente está cerrado, se les permitirá participar en otra encuesta. Con este método de enrutamiento, el riesgo de comprometer la calidad de la muestra es considerablemente menor, ya que solo se redirigirá un pequeño excedente (del muestreo automatizado). Además, los encuestados no se encontrarán con secuencias interminables de filtros de encuestas, sino que responderán a una sola encuesta a la vez. En cualquier caso, es necesario disponer de un algoritmo inteligente que realice un seguimiento de todos los perfiles de los miembros que aún no han respondido, de todas las definiciones de grupos objetivo de los estudios disponibles y, finalmente, realice una combinación perfecta. De este modo, mejoraría la motivación de los panelistas para participar.

Durante la entrevista

Cada estudio es único. Esto hace que sea realmente difícil definir medidas generales de control de calidad que se adapten a todos los casos. Sin embargo, los algoritmos pueden ayudar a comparar la calidad de respuesta de una entrevista con todas las anteriores. ¿Un encuestado se mueve considerablemente más rápido por el cuestionario que otros? ¿Las respuestas en los cuadros de texto son más cortas o contienen tonterías? ¿Y qué pasa con la varianza en las preguntas de cuadrícula? Todos estos indicadores pueden dibujar una imagen más amplia y desencadenar diferentes acciones si se alcanza un cierto umbral. Podría dejar que el algoritmo marque la entrevista para una inspección manual, mostrar una advertencia al encuestado, insertar una pregunta trampa para eliminar a los encuestados desatentos o eliminar la entrevista completa de la base de datos de inmediato.

Otra técnica es el cebado deliberado de los encuestados para impulsar subconscientemente la calidad de sus respuestas. Aquí se presenta una página intermedia con contenido fácil de digerir antes de las preguntas relevantes para que el encuestado se ponga en la mentalidad adecuada para la tarea próxima. Como esta técnica no es igualmente efectiva para todos los encuestados, pero puede inflar la duración de una entrevista, los algoritmos pueden ayudar a presentar los cebadores adecuados solo a las personas adecuadas en el momento exacto. Una vez más, estas técnicas deben aplicarse con cuidado con respecto a la calidad general, ya que también pueden causar algún daño.

Hasta ahora, solo hemos hablado de investigación en línea, lo cual no necesita más explicación. Sin embargo, otros métodos de recopilación de datos también están sujetos a la digitalización y pueden beneficiarse de los algoritmos. Piense en las entrevistas telefónicas, por ejemplo. Los algoritmos podrían analizar la voz del encuestado y realizar un análisis de sentimientos durante la entrevista. Esta información no solo puede ser útil para contextualizar la información al analizar los datos posteriormente, sino también para dar una valiosa retroalimentación al entrevistador mientras habla con el encuestado. Sin embargo, como se ha dicho, es realmente difícil definir medidas que se adapten a cada estudio.

Procesamiento de datos

Una vez recopilados todos los datos, normalmente hay que dar algunos pasos más antes de poder analizarlos. El primer paso consiste en limpiar los datos, es decir, eliminar los casos que no pueden utilizarse para el análisis. Dados todos los pasos anteriores, esto ya no debería llevar demasiado tiempo ni esfuerzo. El siguiente paso es codificar todos los datos no estructurados, especialmente las respuestas abiertas de los cuadros de texto. Los algoritmos pueden reconocer si se aplica un plan de codificación existente (por ejemplo, una lista de marcas en una determinada categoría) o ser entrenados para aprender y aplicar un nuevo plan de codificación. Los diferentes idiomas pueden reconocerse y traducirse automáticamente. Finalmente, todos los datos pueden ponderarse para ajustar pequeñas discrepancias en la composición o para ajustarlos a diferentes unidades de la base (por ejemplo, si la retroalimentación es representativa para todos los habitantes o todos los hogares).

¿Y qué?

Algunas de las técnicas descritas en este artículo ya están en marcha, otras aún están por desarrollar. Y además de estas “frutas al alcance de la mano”, hay muchas otras áreas de aplicación donde los algoritmos pueden facilitar la forma en que trabajamos con los datos.

Hagamos lo que hagamos, nos esforzamos por la mejor calidad posible y dudamos en implementar métodos que puedan comprometer nuestros altos estándares. Nos encantaría saber de usted si desea obtener más información o tiene alguna pregunta.

English

Čeština

Dansk

Nederlands

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski

Português

Svenska

English

Čeština

Dansk

Nederlands

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski

Português

Svenska

¿Cómo pueden ayudarnos los algoritmos a mejorar la calidad de los datos?

Calidad de los algoritmos = calidad de los datos

Reclutamiento de paneles

Perfilado de paneles

Mantenimiento del panel

Muestreo

Durante la entrevista

Procesamiento de datos

¿Y qué?

Recopilación de datos optimizada

Soluciones

Servicio completo

Sólo muestra

Métodos

MyNorstat

TestingTime

Norstat Express

Norstat Dashboards

Norstat WebUX

Servicio integrado Norstat

Norstat en directo

Cómo funciona

Panel de consumidores

Audiencias B2B

Calidad de los datos

Alemania

Austria

Bélgica

Dinamarca

España

Estonia

Finlandia

Francia

Italia

Letonia

Lituania

Noruega

Países Bajos

Polonia

Reino Unido

Suecia

Suiza

Norstat Quarterly Data

Estudios de caso

Artículos

Empresa

Carreras profesionales

Noticias

Sostenibilidad

English

Čeština

Dansk

Nederlands

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski

Português

Svenska

English

Čeština

Dansk

Nederlands

Eesti

Suomi

Français

Deutsch

Italiano

Latviešu

Lietuvių

Norsk bokmål

Polski

Português

Svenska

¿Cómo pueden ayudarnos los algoritmos a mejorar la calidad de los datos?

Calidad de los algoritmos = calidad de los datos

Reclutamiento de paneles

Perfilado de paneles

Mantenimiento del panel

Muestreo

Durante la entrevista

Procesamiento de datos

¿Y qué?

Recopilación de datos optimizada

Sign up to newsletter