Translate

mercredi 21 octobre 2015

Canada 2015: Bilan: Ah les modes/ It's all about modes

Bonjour,
Hi,  (see english text in red)

Dans ce dernier message de la campagne 2015, je regarde si certains modes d'administration ont fait mieux que d'autres selon les contextes et les partis en cause.

Si les estimations produites par une méthode sont trop variables, il est plus difficile de se fier à chaque sondage publié. Il s'agit d'un biais aléatoire ce qui veut dire qu'on n'est pas certain d'une fois à l'autre de la qualité de l'estimation. Si les estimations faites par un mode donnent toujours un parti politique plus haut ou plus bas que les autres, il s'agit d'un biais systématique. Dans ce cas, il faut corriger à chaque sondage les estimations qui sont produites.

In this last message of the Canada 2015 campaign, I examine whether different modes of administration performed better than others. 
If the estimates produced by a particulat method vary too much, then it is difficult to rely on each poll. It is a random bias, which means that we are not sure of the quality of each estimate. If estimates produced by a particular mode always give a higher or lower number for a given party than other modes, it is a systematic bias. In that case, we have to adjust each estimate to take this into account.

Est-ce que certaines méthodes produisent des estimations plus variables ou différentes?

Je postule que les divers modes d'administration se sont distribués de la même manière tout au long de la campagne. Par ailleurs, il faut noter que, pour ce qui est des sondages téléphoniques, ils sont presque tous faits par une seule firme, Nanos, qui utilise une méthodologie particulière. Donc, il peut être "normal" que ses estimations soient moins variables étant donné l'absence de variation dans la méthodologie.
I suppose that the polls are distributed in the same way over the campaign, whatever the mode. I have to stress that most of the telephone polls are conducted by only one pollster Nanos, with a specific and constant methodology, which may explain at least partly why the estimates from telephone polls vary less.

Voici la situation pour le Canada:

Comme le montre le tableau suivant, il n'y a pas de différences de moyenne importantes selon les modes d'administration.

La principale différence réside dans le fait que les sondages de type IVR (téléphonique automatisé) donnent des estimations plus variables que les deux autres modes -- ce qui est illustré par la variance -- et ceci pour tous les partis politiques.





As shown in the preceding table, the different modes do not differ in their average estimates. However, they differ much according to variation. As is illustrated by the variance, the estimates produced by IVR polls vary systematically more than those produced by the two other modes. 

Le graphique suivant, appelé boîte à moustache, présente pour chaque méthode, la variation entre les estimations pour chaque parti. La boîte elle-même représente 50% des estimations qui ont été faites. Plus elle est haute, plus les estimations ont varié. La ligne noire au milieu de chaque boîte donne la médiane et permet de constater qu'il y a des différences sur ce plan entre les modes d'administration. Le graphique permet de constater que, pour les sondages IVR, les boîtes sont plus importantes  que pour les autres modes, ce qui signifie que les estimations varient plus. D'autre part, la médiane des sondages IVR est moins élevée pour le NPD et le Parti Libéral que pour les autres modes, ce qui signifie que ces sondages ont produit plus d'estimés inférieurs aux autres..


The box-and whiskers plot illustrated the variation between estimates. Each box representes 50% of the estimates. The black line in the middle of the boxes show the median, i.e., the point where 50% of the estimates are higher and 50% lower. The graph illustrates that, the IVR polls produced estimates that were more variable for the Liberal Party and the NDP than the other modes. It also shows that, since the median for those party is also lower, the IVR polls produced more estimates that were lower.

D'où viennent les différences entre les modes? Sont-elles les mêmes partout?
Where do the differences come from? Are they similar everywhere?

Pour répondre à cette question, j'ai examiné les mêmes données pour les deux plus grandes provinces, soit l'Ontario et le Québec.

L'Ontario

L'Ontario d'abord. Comme le montre le tableau suivant, la différence entre les modes est encore plus importante en Ontario que pour l'ensemble du Canada. On s'attend à plus de variation puisque les échantillons sont plus petits. Mais, en général les échantillons IVR sont plus importants que les échantillons téléphoniques classiques et donc ils devraient présenter moins de variation. Ce n'est pas le cas. La variance est nettement plus élevée pour les sondages IVR quelque soit le parti et encore plus pour le NPD.

Il y a également des différences de moyenne et donc des biais systématiques. Les sondages téléphoniques ont eu tendance à donner un plus fort appui pour le parti Conservateur. Comme celui-ci a été sous-estimé de deux points en Ontario, ils ont donc donné un portrait plus adéquat de la situation. Pour ce qui est du PLC, la différence entre les modes n'est pas suffisamment importante pour s'y attarder. Pour ce qui est du NPD, les sondages WEB ont contribué à la surestimation de son appui, lui donnant trois points de plus que les sondages téléphoniques.




As shown in the preceding table, the main difference according to modes of administration in Ontario is the variability of IVR polls. This happens in spite of the fact that the samples are generally larger than those of telephone polls. And it is present for all parties and even more for the NDP.

There are also differences in mean estimation. Telephone polls gave higher estimates for the Conservatives and therefore, since the Conservatives were underesetimated in Ontario, they were better in estimating that party. On the opposite, WEB polls tended to estimate the support for the NDP higher than the other modes and contributed to the bias in favor of that party.

Le graphique suivant illustre la situation. On peut aisément noter que la mediane des sondages IVR était moins élevée pour le parti Libéral et que la médiane des sondages WEB était plus élevée pour le NPD et celle des sondages téléphoniques moins élevée.

The preceding graph illustrates the difference between modes. In particular, it shows that the median of the estimates of IVR polls was clearly lower for le Liberal Party. It also shows that WEB polls tended to have a higher median for the NDP.

Et le Québec?

De façon surprenante, au Québec, on ne retrouve pas les mêmes problèmes qu'en Ontario. comme le montre le tableau suivant, la différence de variance selon les modes d'administration est minime, sauf pour le parti Libéral.

Par contre, les différences de moyennes sont plus importantes. Les sondages IVR donnent près de cinq points de plus au parti Conservateur et ont donc contribué à sa surestimation générale. Les sondages téléphoniques ont eu tendance à estimer l'appui au Parti Libéral plus élevé alors qu'il a été sous-estimé. Ils ont donc mieux estimé l'appui à ce parti.  Par contre, ils ont eu tendance à surestimer l'appui au NPD. Enfin, les sondages WEB comportaient un biais systématique d'environ trois points en faveur du Bloc Québecois et ont donc contribué à sa surestimation.




It is surprising to see that the problems are not the same in Quebec. There is not much difference according to  mode in the variance of the different estimates, except for the Liberal party. 

However, there is a somewhat substantial difference in averages. The IVR polls give as much as five points more to the Conservative party therefore contributing to the overestimation of this party in Quebec. On the opposite, telephone polls performed better in their estimation of the Liberal party, which was overall underestimated. However, they tended to underestimate the support for the NDP. Finally, WEB polls systematically overestimated the support for Bloc Québécois, by as much as three points and therefore contributed to the bias in favor of this party.

Finalement, les constatations faites plus haut se reflètent dans le graphique suivant. On y constate l'absence de différences notables dans la variation des estimations en fonction des modes. Par contre, les médianes se différencient comme les moyennes. La médiane pour les Conservateurs est plus élevée pour les sondages IVR, celle des Libéraux et du NPD, plus élevée pour les sondages téléphoniques, et enfin, celle du Bloc Québécois, plus élevée pour les sondages WEB.

As the preceding graph illustrates, there is not much differences in variance according to mode. However, the median for the Conservatives is higher for IVR polls, the median for both the Liberals and NDP is higher for telephone polls and finally, the median for WEB polls is higher for the Bloc Québecois.


Que conclure? Comment expliquer? Comment corriger?

En résumé, les sondages se sont différenciés tant pour ce qui est de la variation des estimés que pour l'estimation du niveau d'appui. Les différences dans la variation toutefois sont surtout dues à la situation en Ontario alors que les différences dans l'estimation du niveau d'appui sont présentes tant au Québec qu'en Ontario.

Comme les sondages IVR donnent des résultats plus variables en Ontario qu'au Québec, on peut émettre l'hypothèse que la cause réside peut-être dans la manière de constituer les échantillons. Est-ce que les sondeurs mettent la même proportion de numéros de cellulaire dans les deux provinces? Les résultats sont-ils plus variables dans les échantillons rejoints par téléphone cellulaire? Ce sont des questions auxquelles les sondeurs utilisant cette méthode doivent s'attaquer. Par ailleurs, un sondeur a combiné deux modes - IVR et téléphonique classique mais il l'a fait seulement à la fin de la campagne tout en modifiant d'autres aspects de sa méthodologie (utilisant de moyennes mobiles sur trois jours). Il est difficile de savoir si ces modifications ont amélioré la performance.

Pour ce qui est des sondages WEB, le problème réside surtout dans un biais systématique, en faveur du NPD en Ontario et du Bloc au Québec. Il est possible que la progression de l'accès au WEB réduise ce biais mais, encore ici, il serait approprié pour les sondeurs de tenter de voir d'où viennent ces biais pour pouvoir éventuellement les corriger.

Au plaisir, à la prochaine élection

In summary, polls differed according to mode both in variance and in estimates of the level of support for each party. The differences in variances come mainly from Ontario while the differences in average and median estimates are present in both provinces.

Since IVR polls have more variable results in Ontario than in Quebec, one may hypothesize that the cause is to be found in the way samples are set up. Is there the same proportion of cell phones in the samples in the two provinces? Are there differences between respondents joined by cell phone and by landline? Those are questions for the pollsters. One pollster combined IVR and classical telephone modes but it changed other features of its methodology at the same time and used this combination only at the end. Therefore, we cannot evaluate if it improved the estimates.

As for WEB polls, the problem is mostly one of systematic bias in favor of NDP in Ontario and Bloc in Quebec. It is possible that the progression of WEB access will eventually reduce this bias but, it would nonetheless be appropriate for pollsters to try to tackle the origin of the bias in order to adjust what needs to be adjusted.

Best, see you next election!

Remerciements: Je tiens à remercier Luis Pena Ibarra, mon assistant de recherche, pour son travail assidu, méticuleux et compétent tout le long de la campagne. Ces travaux ont été menés grâce à la subvention du CRSH no 430-2015-01208 "Pour une analyse historique des données d'enquête".

Aknowledgements: I wish to thank Luis Pena Ibarra, my research assistant, for his diligent, meticulous and competent work during all the campaign. This work benefitted from the SSHRC grant 430-2015-01208 "For an historical analysis of survey data". 

2 commentaires:

  1. Utilisez-vous tous les sondages publiés durant la campagne (donc à compter du 2 août) dans vos calculs ? Incluant ou non les sondages rotatifs redondants ?

    RépondreEffacer
    Réponses
    1. Oui, tous les sondages depuis le 2 août mais pour les sondages avec moyenne mobile sur trois jours, je les entre seulement une fois tous les quatre jours pour ne pas entrer des informations redondantes.

      Effacer