Quelle est la taille de l’échantillon représentatif ?

Dans ce billet, nous aimerions aborder certaines des questions les plus fréquentes concernant l’échantillonnage et la faisabilité des projets : Quelle est la taille d’un échantillon représentatif ? Combien d’entretiens sont recommandés pour obtenir des résultats représentatifs ? Les panels sont-ils suffisamment grands pour couvrir la taille d’échantillon requise ?

Qu’est-ce qui rend un échantillon représentatif ?

Commençons par une histoire qui est devenue le mythe fondateur des études de marché. Il y a un siècle, la revue américaine The Literary Digest a commencé à réaliser des sondages d’opinion auprès de ses dix millions de lecteurs pour prédire les résultats des élections présidentielles. Lors de cinq élections successives, leurs prédictions se sont avérées tout à fait justes, jusqu’à ce qu’elles échouent massivement en 1936, bien qu’ils aient réalisé environ 2,4 millions d’interviews auprès de leurs lecteurs. À leur grande surprise, George Gallup a pu prédire correctement le résultat de cette élection avec “seulement” 50 000 interviews.

Que s’est-il passé ? L’échantillon du Literary Digest a échoué, car ses lecteurs n’étaient pas représentatifs de la population générale. Ils avaient une structure d’âge différente, un revenu moyen différent et, apparemment, des préférences politiques différentes. Au contraire, Gallup a compris que la représentativité ne dépend pas tant de la taille de l’échantillon que de sa bonne composition. Il a simplement utilisé des quotas pour s’assurer que chaque groupe de personnes était correctement représenté dans son échantillon. Cette découverte révolutionnaire a été le point de départ des études de marché et d’opinion telles que nous les connaissons aujourd’hui.

Pour la représentativité, ce n’est pas la taille qui compte, mais la bonne composition. Mais est-ce plausible ? Dans les années 1960, A.C. Nielsen Jr. a donné une réponse intéressante à ceux qui pensaient qu’un échantillon plus grand augmenterait sa représentativité.

“Si vous ne croyez pas à l’échantillonnage aléatoire, la prochaine fois que vous ferez une prise de sang, dites au médecin de tout prendre. – A.C. Nielsen Jr.

Malgré son indéniable sarcasme, cette citation nous fournit une analogie très compréhensible. Que l’on analyse une goutte de sang ou que l’on en prélève un litre entier, les résultats de l’analyse seront toujours les mêmes. Une goutte de sang représente parfaitement tout cela.

Pourquoi la taille de l’échantillon est-elle importante ?

Il est évident que la taille de l’échantillon reste importante. Mais en quoi cela est-il important ? Lorsque vous disposez d’un échantillon représentatif d’une population, certaines des variables cibles peuvent, par hasard, être sur- ou sous-représentées dans votre échantillon. Malheureusement, “par hasard” signifie qu’il n’y a rien que vous puissiez faire lors de la collecte des données.

Au moins, les calculs statistiques peuvent vous aider à estimer la probabilité que votre erreur se situe dans une certaine marge, par exemple que les écarts par rapport à la valeur réelle soient inférieurs à x % à un niveau de confiance de 95 %.

  • Pour les chercheurs d’opinion, un niveau de confiance de 95% est l’option la plus courante. Dans ce cas, le risque que la valeur réelle se situe en dehors de la marge d’erreur correspondante est inférieur à 5 %. Toutefois, dans d’autres disciplines, un niveau de confiance de 99 % peut être la norme (par exemple, dans l’industrie pharmaceutique, où les erreurs statistiques peuvent être une question de vie ou de mort).
  • Compte tenu du niveau de confiance, vous pouvez calculer la marge d’erreur pour chaque valeur d’une distribution. Supposons que les résultats de votre enquête vous donnent une part de marché de 50 % et que votre marge d’erreur correspondante soit de 3 % (à un niveau de 95 %), le risque que la part de marché réelle soit inférieure à 47 % ou supérieure à 53 % est alors inférieur à 5 %.

Si l’on veut réduire la marge d’erreur (à partir d’un certain niveau de confiance), il n’y a qu’une seule solution : augmenter la taille de l’échantillon.

Comment déterminer la taille de l’échantillon ?

Pour déterminer la taille de votre échantillon, il est souvent nécessaire de commencer par la fin et de remonter jusqu’au début. Toutefois, dans un souci de clarté, nous allons brièvement vous guider à travers le processus d’entretien dans le bon ordre et expliquer les statuts finaux qu’un répondant peut obtenir.

Les statuts finaux d'un répondant peuvent aller de l'invitation à la non-réponse, à la sélection, à l'échec du quota, à l'interruption, à l'achèvement.

Tout commence par l’envoi d’invitations aux membres de notre panel. Parmi toutes les personnes invitées, seule une partie d’entre elles cliquera sur le lien et commencera l’enquête. C’est ce que nous décrivons avec le taux de réponse (le pourcentage de réponses par rapport au nombre total d’invitations à participer). En outre, au début d’une enquête, nous posons généralement des questions de sélection afin d’identifier le groupe cible souhaité. Le pourcentage de répondants éligibles à ce stade est reflété dans le taux d’incidence (le pourcentage d’individus dans une population cible qui répondent à un critère spécifique requis pour une étude). Une fois que nous nous sommes assurés d’avoir le bon groupe cible, nous évaluons les quotas possibles et mettons fin à l’entretien pour les répondants dont les quotas ont déjà été remplis. Les quotas sont généralement évalués après la présélection pour s’assurer que nous pouvons mesurer le bon taux d’incidence sans l’interférence des quotas. Si les répondants entrent dans un quota ouvert, ils peuvent participer à l’enquête principale. Néanmoins, certains peuvent s’interrompre au cours de l’entretien et ne jamais atteindre la page finale. Enfin, ceux qui atteignent la fin de l’enquête seront comptabilisés comme des entretiens terminés.

Ruptures

Comme indiqué précédemment, le processus de détermination de la faisabilité commence par le nombre requis d’entretiens menés à bien et implique ensuite de travailler à rebours pour calculer le nombre nécessaire d’invitations. Supposons que nous menions une étude nécessitant un total de 1 000 entretiens. La première étape consiste à estimer le nombre d’interruptions au cours de l’entretien principal (également appelé “drop outs”, “partials” ou “abandons”).

Quelle est donc l’hypothèse raisonnable pour le taux de rupture ? Cela dépend principalement de l’enquête elle-même. Si le questionnaire est long, répétitif ou porte sur un sujet qui n’est pas très pertinent pour les répondants, on peut s’attendre à un plus grand nombre de ruptures. Mais la technologie joue également un rôle important. Si l’enquête repose sur une technologie obsolète (Flash, par exemple) ou n’est pas adaptée aux mobiles (responsive, par exemple), les utilisateurs risquent d’avoir du mal à répondre à l’enquête. Nos chefs de projet expérimentés se feront un plaisir de vous aider à optimiser votre questionnaire afin de réduire au maximum le nombre de ruptures !

Supposons un taux d’abandon de 2 % dans notre exemple, ce qui signifie que nous aurons besoin de 1 020 répondants pour commencer l’entretien principal.

Échec des quotas

L’étape suivante consiste à estimer le montant des quotas manquants, ce qui est souvent la tâche la plus difficile et nécessite un gestionnaire de projet expérimenté.

La définition des quotas peut être assez complexe. Ils peuvent inclure de nombreuses variables, être imbriqués ou non et, parfois, les répondants y sont même affectés par hasard (pensez aux tests monadiques). En théorie, les variables disponibles dans les profils des membres de notre panel devraient nous aider à n’inviter que les bons participants et à éviter toute erreur de quota. Toutefois, cela n’est pas toujours possible dans la pratique. Nous n’avons pas toujours accès à tous les profils requis et si la période de terrain est trop courte, nous n’avons peut-être pas la possibilité de respecter progressivement et méticuleusement les différents quotas.

En résumé, les échecs de quotas sont presque inévitables dans la majorité des cas. Leur ampleur dépend beaucoup des spécifications de l’étude (c’est-à-dire du plan de quotas, de la période de terrain), mais aussi de l’expérience du gestionnaire de projet. Réussir à répondre à tous les devis dans les délais impartis tout en conservant le panel peut constituer un défi de taille, qui distingue les échantillonneurs expérimentés de ceux qui ne le sont pas.

Supposons que le quota de 20 % ne soit pas respecté dans notre exemple. Nous aurons donc besoin de 1 276 répondants présélectionnés, y compris les personnes en rupture de ban.

Écrans de sortie

Il est relativement facile d’estimer le montant des screen outs, car le taux d’incidence fait généralement partie de la proposition. Ce taux d’incidence devrait idéalement correspondre à la proportion de répondants qui passent le filtre et est généralement indépendant de tout autre facteur.

Supposons un taux d’incidence de 50 % pour notre exemple, ce qui nous donne un montant requis de 2 552 starters.

Taux de réponse

La dernière étape de notre calcul consiste à répondre à la question de savoir combien de membres nous devrons inviter pour obtenir 2 552 départs. Le taux de réponse dépend légèrement de facteurs externes (tels que le jour, la semaine, la météo, la période de vacances, etc.) En outre, la qualité du panel joue également un rôle et, enfin, les paramètres de l’étude elle-même : si l’enquête est adaptée aux appareils mobiles, nous pouvons envoyer l’invitation à l’application de notre panel et ainsi augmenter les taux de réponse.

Si nous disons qu’il est de 45% pour notre exemple, nous aurons besoin d’un échantillon total de 5 669 personnes. C’est le minimum requis pour répondre aux spécifications de cette étude exemplaire. Mais comme vous le verrez dans notre livre des panels, même notre plus petit panel en ligne est suffisamment important pour réaliser ce type d’étude.

Jusqu’à quel point la qualité est-elle suffisante ?

Cela nous amène à une question très importante pour les entreprises : Jusqu’à quel point la qualité est-elle suffisante ? Il n’y a certainement pas de réponse générale à cette question, mais nous aimerions discuter de trois scénarios pour illustrer les différentes manières d’aborder la question :

  • Test de concept : Supposons qu’une entreprise dispose de deux options pour une campagne publicitaire. Mais laquelle est la plus efficace ? Il vous suffira d’identifier le gagnant et de le suivre ! En supposant que le résultat ne soit pas trop serré, environ 500 entretiens peuvent suffire (ce qui correspond à une marge de 4,3 % à un niveau de 95 % – la meilleure option devrait donc arriver en tête avec au moins 9 %).
  • Recherche sur les élections : Lorsque vous prévoyez la popularité des partis politiques lors des élections, vous vous intéressez probablement à d’autres éléments que les évaluations individuelles. Vous vous demanderez quels partis pourraient former une coalition pour obtenir une majorité. Si vous avez deux partis avec une marge d’erreur de 3 % chacun, il sera difficile de faire des pronostics, surtout si l’on s’attend à ce que le résultat soit serré. Dans ce cas, il faut augmenter la taille de l’échantillon pour réduire la marge d’erreur.
  • Sous-groupes : Très souvent, en plus des statistiques globales, vous souhaitez analyser des sous-groupes de votre échantillon : Qui sont exactement ces gros utilisateurs ? En quoi les hommes diffèrent-ils des femmes ? Quels sont les produits préférés des lecteurs d’un certain magazine ? Si vous n’utilisez qu’un sous-ensemble réduit de votre échantillon principal, le nombre d’entretiens disponibles pour votre analyse ultérieure sera également réduit. Dans ce cas, il convient également d’augmenter la taille de l’échantillon.

En fin de compte, l’art consiste à réaliser suffisamment d’entretiens pour pouvoir tirer des conclusions fiables tout en restant raisonnable quant aux coûts globaux du travail sur le terrain.

Résumé

Combien d’entretiens sont donc recommandés pour obtenir des résultats représentatifs ? Il est impossible de répondre à cette question. On peut avoir de petits échantillons très représentatifs et de grands échantillons qui ne le sont pas du tout (très souvent : “Big Data”).

  • La représentativité concerne la bonne composition de votre échantillon. Il indique si votre échantillon vous donne une image correcte de la réalité. S’il est un peu flou, il vous permettra tout de même d’avoir une vue d’ensemble correcte.
  • La taille d’un échantillon détermine la clarté de la vision. Si votre échantillon n’est pas représentatif, une grande taille vous permettra d’y voir très clair – mais il s’agira d’une fausse image, d’une représentation erronée de la vérité.

Vous allez collecter des données dans le cadre d’une étude de marché ?

Nous souhaitons participer à votre réussite.

Commencer