Translate

vendredi 22 avril 2011

Les panels web sont-ils fiables?

Suite à la publication du sondage Crop hier mettant le NPD en avance sur le Bloc au Québec, plusieurs se sont demandé si les sondages de type Panel Web étaient fiables, ceci parce que Crop a écrit ce qu'il faudrait toujours écrire pour ce type de sondage soit, que la marge d'erreur ne s'applique pas. Qu'est-ce que cela signifie?  En gros, comme les panels web n'utilisent pas d'échantillons probabilistes, on ne peut pas en estimer la fiabilité par les moyens statistiques habituels puisque ceux-ci sont basés sur le fait que l'échantillon est probabiliste. On doit donc se fier à d'autres moyens.

Un premier moyen consiste à vérifier si d'autres informations de type socio-politique données par le sondage sont conformes à ce à quoi on s'attend. Crop informe que l'intention de vote référendaire de son sondage est à 42% après répartition. Si cette intention de vote avait été particulièrement basse, on aurait pu se poser des questions. Ce n'est pas le cas. Ils serait pertinent de savoir quels moyens les sondeurs utilisent pour valider que leur échantillon n'est probablement pas biaisé (comme le vote déclaré à l'élection précédente, par exemple).

Un deuxième moyen est évidemment de vérifier si les informations données par d'autres sondages utilisant des méthodologies différentes donnent des résultats similaires. Hier, un sondage Ekos utilisant la méthode SVI (téléphonique automatisée) et un sondage Ipsos-Reid (téléphonique) donnaient un portrait similaire soit le NPD à égalité avec le Bloc au Québec (à l'intérieur de la marge d'erreur).

Il demeure que les méthodologies sont variées et peuvent toutes présenter certains biais. Les échantillons téléphoniques SVI ne font pas de sélection à l'intérieur des ménages, ce qui va à l'encontre de ce que veut la théorie probabiliste. Par contre, Ekos a ajouté des numéros de téléphone portable. La plupart des sondages téléphoniques traditionnels font une sélection par quotas, ce qui va aussi à l'encontre de la théorie probabiliste.  Certains sondeurs ont des taux de discrets qui dépassent l'entendement. La formulation de la question d'intention de vote varie. Tous ces éléments peuvent entraîner des biais. 

Pour le moment, on postule que les biais s'annulent. Ce n'est pas nécessairement le cas mais c'est la seule hypothèse que l'on peut faire en pratique. Dans les premières analyses faites à partir du début janvier, les sondages Web avaient tendance à surévaluer le NPD et à sous évaluer le PLC par rapport aux autres sondages. Ce n'est pas le cas si on se restreint aux sondages publiés depuis le début mars, au contraire. Tant les sondages Internet que SVI auraient tendance à surévaluer le PLC aux dépens du PC.

Bref, de quoi réfléchir.

Bon week-end de Pâques!

Au plaisir

2 commentaires:

  1. Bonjour.
    Même si on stratifie correctement la population sondée par âge, sexe, région, profession, il reste que les gens sondés par internet ont des particularités (biais) qui ne peuvent être généralisées sans correction. Q-1 : Comment peuvent-ils représenter les gens qui n'utilisent jamais ou pratiquement jamais l'internet? En particulier les gens de 75 ans et plus, les illettrés, les moins nantis sans ordinateur ou sans internet, etc.
    Ensuite, pour tous les sondages, la population-cible est officiellement la population générale, je crois. Q-2 : N'est-ce pas plutôt les gens qui iront voter qu'il faudrait représenter? Or, la participation au vote lors des dernières élections peut être indicatif mais insuffisant. Q-3 : Ne faudrait-il pas pondérer les réponses par la probabilité d'aller voter déterminé par une formule basée sur une étude empirique? (ex : facteurs prédisant le vote : constance de participation aux élections depuis l'âge de 18 ans et autres déterminants comme l'âge, le sexe, variables socioéconomiques, appartenance politique, voter pour ou contre le pouvoir, etc.? Q-4 : De telles études ont dû être réalisées au Canada. Que disent-elles?
    Q-5 : Enfin, quel est le taux de réponses réel de tous les sondages téléphoniques dans notre population mobile et sur-sondée? ... i.e. le nombre de répondant-e-s effectifs divisé par le nombre d'appels composés !?! (On donne souvent le taux en fonction du nombre de personnes à qui on réussit à parler, ce qui est fallacieux.)

    Michel Camus, épidémiologue (mcamus51@gmail.com)

    RépondreEffacer
  2. Toutes ces questions sont hautement pertinentes.
    1) Les sondages internet ne peuvent représenter les non-internautes. En plus, il s'agit de panels de volontaires. Seuls 18% des 65 ans et plus ont accès à Internet. Ceci m'amenait à l'hypothèse que les Libéraux en particulier seraient sous représentés dans ces sondages à cause de leur base traditionnelle et que le NPD serait surreprésenté. Empiriquement, c'était le cas dans mes premières analyses. Toutefois, si je prends seulement les sondages depuis le début mars, ce n'est pas le cas. Il ne suffit pas que certains groupes soient surreprésentés. Il faut qu'ils aient une intention de vote différente et qu'ils composent une proportion suffisante de l'électorat pour que ca fasse une différence dans l'estimation.
    2) La participation: Aux États-Unis, ils utilisent un "likely voter model". Mais ca a aussi sa part de danger. La recette varie selon les firmes d'une part et d'autre part, la composition de l'électorat varie également selon les élections. Et donc, de deux maux, on choisit sans doute le moindre.
    3) Idem de 2. Il faudrait sans doute tenter de pondérer non pas par la probabilité individuelle d'aller voter toutefois (à mon avis) mais plutôt pondérer les socio-demo en fonction de la composition habituelle de l'électorat (proportionnellement moins de jeunes et de très agés).
    4) Peu d'études là-dessus au Canada. J'ai consulté beaucoup d'études sur la différence entre sondages Internet et les autres (je peux vous envoyer ma présentation récente là-dessus si vous m'envoyer un message privé à mon adresse courriel). Sur le reste, je pense qu'au Canada, au cours des dernières élections, les sondages ont été en moyenne assez bons sauf pour une certaine sous estimation des Conservateurs, d'ou ce n'est pas un incitatif à faire des études.
    5) Le taux de réponse pour les sondages téléphoniques que vous voyez en ce moment est probablement entre 10 et 20% puisque ces firmes font des quotas et donc, peu de rappels. La répartition des quotas est considéré comme l'indicateur de qualité...

    Conclusion: Le portrait tracé par les sondages en ce moment est-il biaisé? C'est possible (à l'encontre des Libéraux peut-être). Les sondages ne sous-estiment que très rarement le vote "de gauche" soit NPD et Bloc.

    Au plaisir

    RépondreEffacer