Translate

mercredi 3 juillet 2013

De turbans, de sondages et de valeurs

Bonjour,

Voici le lien au texte publié dans La Presse du 28 juin relativement aux sondages portant sur le port du turban au soccer, le Québec laïque, etc.

http://www.lapresse.ca/debats/votre-opinion/201306/28/01-4666057-un-portrait-reducteur.php

Au plaisir

dimanche 4 novembre 2012

Obama or Romney?

Bonjour,
Thanks to  Huffington Post and Pollster.com, we have access to all the polls published during the presidential electoral campaign together with the relevant information on their methodology. The fact that there are lots of polls published in U.S. electoral campaigns allows for refined analyses.

I analyzed the polls published between January 1st, 2012 and this morning. I excluded only the polls for which there was no information on sample size. I estimated the evolution of vote intention, taking into account each poll's methodological features* . These analyses show that:
a) Estimation of vote intention for Obama is related to the number of days a poll is in the field. More days in the field mean lower voting intention for Obama and higher for Romney.
b) The larger the sample size, the higher the estimate of vote intention for Obama. Note that sample size is related to administration mode.
c) The undecided -- or non disclosers -- are distributed equally between Obama and Romney (at the aggregate level, at least).
d) Using a Likely voter model has a significant impact on estimates. Polls that use a Likely voter model give on average 1.3 points more to Obama. However, this effect varies with time. 

Finally, I computed two models each for Obama and Romney, one for polls using a Likely Voter Model (59% of the polls) and one for the others, i.e., with a population defined as "registered voters"(40%) or "adults" (1%). All the other variables have been put at the mean -- number of days (4.22), sample size (1268), proportion of non disclosers (7.77). Here is the illustration of evolution with time.





The solid lines show the evolution for polls using a Likely voter model, the dotted line for the other polls. Whatever the model, on average, I have -- like others -- Obama going towards a short majority. The difference is one point in favor of Obama for the polls using a likely voter model, two points for the others. Is it significant? For each poll, no, for the average estimation, not sure, since you have to take into account all the factors that can influence the estimation, i.e. bias related to non response or coverage, turnout, etc.

Eager to see if the vote will conform to the model !

Au plaisir

* For interested specialists, I run a multilevel model where polls are embedded within weeks. The effect of methods is estimated at level 1, the poll level; evolution with time is estimated at level 2. The evolution with time is significant at power 4 and there is an additional impact of quadratic time on the effect of the likely voter model.

Obama ou Romney?

Bonjour,

L'intérêt des élections américaines pour une spécialiste en méthodologie est le nombre de sondages réalisés à chaque semaine, ce qui permet de faire des analyses très raffinées. De plus, Huffington Post et Pollster.com rendent disponibles les données de tous les sondages de même que les informations méthodologiques de base, ce qui facilite grandement la tâche.

J'ai analysé tous les sondages publiés depuis le début janvier jusqu'à ce matin. J'ai exclus seulement les sondages pour lesquels il n'y avait pas d'information sur la taille de l'échantillon. J'estime l'évolution de l'intention de vote en prenant en compte la méthodologie des divers sondages*. Ces analyses montrent que que:
a) L'estimation des intentions de vote pour Obama dans les sondages diminue quand le nombre de jours de terrain du sondage augmente. En d'autres termes, plus le sondage dure longtemps, plus son estimation du vote d'Obama est faible.
b) Plus l'échantillon est important, plus l'estimation du vote pour Obama est élevé. Ceci est lié au mode d'administration des sondages.
c) Les indécis se distribuent à peu près également entre Obama et Romney.
d) Le fait que le sondeur utilise ou non un Likely voter model a un impact significatif sur l'intention de vote: L'utilisation d'un Likely voter model donne en moyenne 1,3 points de plus à Obama mais cet effet varie avec le temps.

Au final, j'ai fait pour Obama et pour Romney, deux modèles, un pour les sondages utilisant un Likely Voter Model (59% des sondages) et un pour les autres, dont la population est définie comme "registered voters"(40%) ou "adults" (1%). J'ai mis toutes les autres informations -- nombre de jours, taille de l'échantillon, proportion d'indécis -- à la moyenne. Voici ce que ça donne:




La ligne continue montre l'évolution pour les sondages utilisant un Likely voter model, la ligne pointillée pour les autres. Quelque soit le modèle, en moyenne, Obama semble aller vers une très courte majorité sur Romney. Cette différence est de un point pour les sondages avec Likely Voter Model, de deux points pour les autres. Est-elle significative? Sondage par sondage, non; sur l'ensemble, à peine, si on tient compte de tous les facteurs qui peuvent entrer en ligne de compte (comme à la dernière élection québécoise, par exemple): biais dans les sondages -- non réponse, couverture --, participation, etc.

Ne reste qu'à attendre le vote pour voir si l'élection sera conforme au modèle !

Au plaisir

* Pour les spécialistes intéressés, il s'agit d'un modèle multiniveau où les sondages sont nichés dans les semaines. L'impact de la méthodologie est estimé au niveau 1, le niveau des sondages, et l'évolution dans le temps est au niveau 2, soit par semaine.

mardi 9 octobre 2012

Que s'est-il passé: Prime de l'urne au PQ?

Bonjour,

Jeudi 27 septembre, j'ai présenté les résultats d'un panel post-électoral auprès des répondants au sondage pré-électoral de CROP dans le cadre d'une table ronde sur l'élection du 4 septembre.

Le fichier de la présentation se trouve ici
L'enregistrement video de ma présentation (incluant l'introduction à la table ronde et les présentations des autres panelistes) se trouve ici. Elle est au début du panel.

En résumé,

Le lendemain de l'élection, personne ne semble avoir pensé à attribuer l'écart entre les sondages et l'élection à un mouvement de dernière minute en faveur du PLQ. On a plutôt fait référence aux discrets et à la volatilité du vote. Il demeure qu'il est toujours préférable de vérifier plutôt que de spéculer.

J'ai fait faire un sondage post-électoral auprès des répondants au sondage pré-électoral de CROP publié l'avant-dernière semaine de la campagne. Ce sondage comportait 4 questions dont : "Avez-vous voté?" et  "Pour quel parti? (question ouverte)". Les deux autres questions avaient trait à l'indécision et à l'influence possible des sondages. Le taux de réponse a été de 84,4%.

Le graphique 1 rappelle les intentions de vote telles qu'estimées par CROP dans son sondage effectué entre le 24 et le 26 août, soit 33% PQ, 28% CAQ et 26% PLQ.

Voici maintenant les intentions de vote déclarées par les répondants à ce sondage: 37% pour le PQ, 26% pour le PLQ et 24% pour la CAQ. Le vote déclaré est donc encore moins près des résultats de l'élection que l'intention de vote estimée et laisse entrevoir qu'il y aurait eu un mouvement de la CAQ vers le PQ en fin de campagne.

C'est ce que j'ai analysé dans ma présentation. J'ai pondéré le sondage pour qu'il reflète les résultats de l'élection. Les faits saillants sont les suivants:

Parmi ceux qui révèlent leur vote (83% des répondants), 77% sont stables, c'est-à-dire qu'ils disent avoir voté pour le parti pour lequel ils avaient l'intention de voter. Près de 15% affirment avoir voté pour un parti différent de celui pour lequel ils avaient l'intention de voter.  Les autres (8%) sont des discrets qui révèlent une intention de vote.

Parmi ceux qui ont changé de parti entre la semaine du 24 août et le vote,
- Ceux qui ont changé ont voté pour le PQ (35,6%) de façon plus importante que pour le PLQ (22,4%) ou pour la CAQ (17%).
- Le PQ, outre de ne pas avoir perdu d'intention de vote au profit des autres partis, a surtout récolté des votes de la CAQ  et de QS.
- Le PLQ a perdu un peu au profit de la CAQ alors que la CAQ a perdu au profit des deux autres partis.
- Les discrets ont quant à eux voté deux fois plus pour le PLQ (46,5%) que pour le PQ (22,7%) ou pour la CAQ (19,6%).

Au final, les résultats sont compatibles avec les conclusions suivantes:

- Les intentions de vote durant la campagne étaient très stables mais il y a eu un ralliement au PQ en fin de campagne, provenant surtout de la CAQ et de QS.
- Le PQ a été surestimé pendant toute la campagne. Il était normalement entre 28% et 30% (plus ou moins la marge d'erreur), à égalité avec la CAQ.
- Le PLQ était sous-estimé et fort probablement en tête.

Est-ce que les biais des sondages ont eu une influence sur le résultat de l'élection? J'ai vérifié circonscription par circonscription et il apparaît que le seul siège supplémentaire où le PLQ aurait pu gagner semble être St-François. Dans toutes les autres élections serrées où le PLQ pouvait gagner, il l'a fait.

Des corrections à apporter dans la méthodologie des sondages?

Réduire la proportion des discrets et mieux estimer leur vote probable.

1. Le positionnement de la question d’intention de vote plus loin dans le questionnaire -- et non au début -- pourrait aider à réduire la proportion de discrets (voir Fournier et coll. 2011).
2. Il faudrait analyser les caractéristiques des discrets et ne plus les répartir proportionnellement.
3. Il faudrait améliorer la couverture (cellulaires, entre autres) et la collecte (taux de réponse, entre autres).

Publication des sondages dans les médias.

1. Publier l’intention de vote avant répartition et mieux expliquer aux lecteurs ce que signifie la marge d'erreur.
2. Publier 2 types de répartition des discrets (proportionnelle et non proportionnelle)?

Mieux estimer l’intention de vote des non-francophones et leur participation au vote.


A la prochaine!

dimanche 9 septembre 2012

Le PLQ est-il sous-estimé toujours et partout?

Bonjour,

Toujours dans ma tentative de comprendre la sous-estimation du vote libéral et d'être en mesure de mieux la prédire, je me suis demandé si le PLQ avait aussi été sous-représenté dans les sondages par circonscription faits pour la plupart dans des circonscriptions très francophones. J'ai donc comparé les résultats des derniers sondages faits dans 18 circonscriptions par la firme Segma aux résultats de l'élection. Voici les résultats:

Sur 18 élections, il y a eu sous-estimation d'au moins un parti dans 13 élections, 11 fois pour le PLQ, 2 fois pour la CAQ et une fois pour le PQ.

Saguenay-Lac St-Jean: 5 circonscriptions, toutes fortement majoritaires PQ (entre 42% et 53% du vote. Dans les 5 circonscriptions, il y a sous-estimation: le PLQ est sous-estimé dans 4, la CAQ dans une. Sous-estimation de 3 à 8 points.

Gaspésie: Deux circonscriptions: Le PLQ est sous-estimé de 8 points dans Gaspé, le PQ de 7 points dans Bonaventure. Il s'agit du seul cas de sous-estimation du PQ. C'est l'ancien fief de Nathalie Normandeau.

Région de Québec: Sur trois comtés, le PLQ est sous-estimé dans un seul, celui d'Agnès Maltais. Sous-estimation de près de 7 points.

Estrie: Dans Brome-Missisquoi et St-François, sous estimation du PLQ, 6 points et 10 points respectivement. Deux luttes très serrées où les sondages ont peut-être joué un rôle. Au final, un PLQ gagnant dans une lutte à trois (P. Paradis) et Réjean Hébert, PQ, gagnant de justesse. Les deux autres élections -- Sherbrooke (Cardin) et Granby (Bonnardel) -- sont bien prédites.

Mauricie :  Deux luttes serrées. Le PLQ et la CAQ sous-estimés de 5 points chacun dans Trois-Rivières (victoire PLQ), la CAQ de 6 points dans St-Maurice (victoire PQ).

Les deux derniers: Dans Papineau, une lutte serrée où le PLQ est sous-estimé de 7 points et où il a gagné par très peu. Dans Hull, les 3 partis très bien prédits, victoire PLQ.

En conclusion: 

La sous-estimation du PLQ est assez généralisée même si elle n'est pas toujours présente. Dans les cinq  luttes serrées où les sondages auraient pu amener des électeurs à voter pour la CAQ, le PLQ a remporté trois élections et le PQ, deux. Sur 11 élections où le PLQ était sous-estimé, sept sont des élections gagnées par le PQ. Pour ce qui est des 5 circonscriptions où les résultats sont bien prédits, aucune n'est une élection serrée. Deux ont été gagnées par le PLQ (Hull et Louis-Hébert), deux par la CAQ (Lévis et Granby) et une par le PQ, Sherbrooke.

A première vue, la sous-estimation du PLQ est plus probable lorsque le PQ est "bien en selle" comme au Saguenay, à Gaspé, par exemple. Mais ce n'est pas toujours le cas. Une chose est certaine, la sous-estimation du vote libéral ne provient pas au premier chef d'une sous-estimation du vote des non-francophones.

Au plaisir

samedi 8 septembre 2012

En guise de post-mortem

Bonjour,

Comme on l'a vu, les sondages ont sous-estimé le vote pour le PLQ. Mon hypothèse 2 (voir dernier message de la campagne), soit une répartition non proportionnelle des discrets attribuant 50% au PLQ, 25% au PQ et 25% à la CAQ, était la meilleure. Elle estimait très bien le PQ (à 32,5%) et la CAQ (à 27,2%).  Toutefois, elle sous-estimait encore le PLQ en l'estimant à 28,9%.  Mon hypothèse 3 qui tentait une correction pour le vote non francophone surestimait le PLQ en l'estimant à 33,6%.

La sous-estimation du vote libéral dans les élections québécoises est un "vieux problème". Pour mémoire, j'ai publié un article dans Options politiques en 2002 intitulé "Are polls biased against Quebec Liberals?


D'autres hypothèses


Depuis l'élection, j'ai tenté de voir si je pouvais arriver plus près des résultats de l'élection en tentant a) de faire une répartition différente des discrets -- 60% au PLQ, par exemple -- ou en tenant compte de la participation moins forte des non francophones -- j'ai estimé que les non francophones constituaient 18% des électeurs qui votent alors qu'ils sont 20% de la population. J'ai donc émis des hypothèses plausibles mais a posteriori. Les analyses utilisant ces hypothèses améliorent la prédiction du vote de PLQ mais détériorent celle de la CAQ. Pour le moment donc, aucune découverte majeure! Je vais continuer mes recherches sur ces questions pour être prête pour une élection subséquente.

Les firmes de sondage

Depuis quelques années, je me concentre sur la performance de l'ensemble des firmes, collectivement, plutôt que sur celle de chaque firme, ceci pour une très bonne raison: Une firme peut avoir des résultats atypiques même si elle a utilisé une méthodologie très rigoureuse et à l'inverse, une firme pourrait avoir de très bons résultats malgré une méthodologie douteuse. C'est le hasard. Et le hasard ne fait pas toujours bien les choses. Je fais toutefois quelques observations sur les résultats obtenus par les diverses firmes/ méthodologies puisque, au-delà de la question des firmes, il faut souligner que chaque firme utilisait une méthodologie différente.

Pour ce qui est des biais systématiques, ceux qui se produisent pour toutes les firmes ou presque, le fait marquant est la sous-estimation du vote libéral, une sous-estimation qui était moins importante pour la firme Forum. Par contre, sauf pour un sondage, cette firme a eu tendance à surestimer le vote pour le PQ et à sous-estimer le vote pour la CAQ. On peut également noter que les résultats des deux firmes québécoises ont été plus constants que ceux de Forum. Les variations dans les sondages Forum peuvent être dues à plusieurs facteurs dont l'absence de pondération pour la langue maternelle, le moment des sondages -- dont un lundi de long week-end -- et le fait que les sondages sont faits sur une seule journée.

Comme l'a noté Jean-Marc Léger, son premier sondage était très proche des résultats de l'élection. De là à conclure qu'il n'y a pas eu de mouvement pendant la campagne électorale, il n'y a qu'un pas... Mais cela ne fait pas de belles premières pages!

Les sondages CROP, avec une méthodologie téléphonique classique, ne se sont pas beaucoup distingués de ceux de Léger, qui utilise un panel Internet. Les deux firmes ont mis les intentions de vote pour le parti Libéral à égalité avec celles de la CAQ dans leur trois derniers sondages. La tendance à la sous estimation du vote libéral est donc présente dans toutes les méthodologies et elle se fait au profit d'une surestimation du vote pour les petits partis. Ces derniers ont obtenu 9,8% du vote alors qu'ils sont estimés à 14% par Crop et 12% par Léger. Il semble évident qu'à tout le moins, il ne faut pas attribuer des discrets aux petits partis.

Au plaisir

mardi 4 septembre 2012

Der de der, incluant Forum

Bonjour,

Un dernier sondage de Forum research aujourd'hui qui donne une lecture différente de celle des deux autres firmes. En effet, CROP et Léger n'ont perçu aucune évolution des intentions de vote au cours des deux dernière semaines alors que Forum perçoit une montée du PQ au détriment de la CAQ. Qui a raison? Notons que la méthodologie utilisée par Forum fait qu'il y a une proportion de discrets minime, soit 2,8%.
Je refais les analyses avec exactement les mêmes hypothèses que pour mon message précédent. Voici ce que ça donne.


Hypothèse 1 : Intentions de vote telles que publiées par les firmes

Cette première hypothèse utilise les estimations fournies par les firmes, sans aucune correction. Il faut noter ici que la répartition de la proportion de francophones -- qui devrait être à 20% -- varie entre 12% et 17% environ chez Forum et qu'elle n'est pas redressée. Lorsqu'on utilise les estimations des firmes, la seule tendance qui est significative est une tendance à la hausse d'environ 3 points depuis le 7 août pour la CAQ. Cette analyse donne le PQ à 33,3% alors que la CAQ et le PLQ seraient à égalité avec respectivement 27,6% et 27,1% des intentions de vote.


Pour les francophones, ces mêmes estimations donnent les résultats suivants: Aucune évolution depuis le 7 août, le dernier Forum annulant la tendance à la baisse pour le PQ et à la hausse pour la CAQ. Le PQ serait à 36,4%, la CAQ à 29,1% et le PLQ à 21,8%.



Hypothèse 2 : Intentions de vote avec répartition non proportionnelle des discrets

Cette hypothèse est la plus plausible, celle qui a, au cours des élections précédentes, donné les résultats les plus près du vote réel. En ajoutant le dernier Forum, les analyses montrent, pour l'ensemble du Québec, une baisse d'environ 3 points du PLQ depuis le 7 août et une hausse similaire de la CAQ. Ceci amène le PQ à 32,5%, le PLQ à 28,9% et la CAQ à 27,2%. On voit sur le graphique que les derniers points, ceux du sondage Forum, s'écartent de la tendance pour le PQ et la CAQ. Le sondage met le PQ plus haut que la tendance de l'ensemble des sondages et la CAQ plus bas.


Si on fait la même hypothèse de répartition non proportionnelle mais uniquement pour les francophones, on arrive à la situation suivante:Les trois partis seraient stationnaires (le dernier Forum annule la tendance à la baisse du PQ et à la hausse de la CAQ chez les francophones). Le PQ serait à 35,4%, la CAQ à 28,7% et le PLQ à 24,4%. On voit que le sondage Forum se distingue en donnant une plus forte proportion du vote au PLQ. Toutefois, il faut faire remarquer que, dans tous les sondages des deux dernières semaines, la différence entre le PLQ et la CAQ était non significative.




Hypothèse 3: Intentions de vote corrigées pour le vote des non francophones (CROP et Léger) , la proportion de non-francophones (Forum) et avec répartition non proportionnelle des discrets francophones.

Comme je l'ai expliqué dans mon dernier message, cette hypothèse est biaisée en faveur du PLQ. Ce n'est pas une hypothèse farfelue mais c'est une hypothèse moins plausible que l'hypothèse 2. Elle repose sur une répartition non proportionnelle des discrets francophones et une attribution du vote non francophone à 70% pour le PLQ, 14% pour la CAQ et 7% pour le PQ. Elle présume également que les non francophones participent au vote autant que les francophones. En intégrant le dernier sondage Forum, les analyses donnent un vote stationnaire pour les trois partis, ce qui rappelle un peu l'élection québécoise de 1998. Le PLQ serait à 33,6%, le PQ à 29,8% et la CAQ à 25,8%.




En conclusion

Dans cette élection, c'est vraiment le vote qui départagera dans les hypothèses que j'ai faites celle qui était la plus appropriée. J'aurais pu faire d'autres hypothèses.  Comme je l'ai mentionné dimanche, d'autres facteurs peuvent également intervenir, tels le vote pour les petits partis, la participation différenciée selon les partis, les groupes d'âge, des changements de dernière minute, etc.

À demain!