Ah! les sondages: 2017

lundi 24 avril 2017

France, le jour d'après, the day after

Bonjour, Hi,

(English follows in the same message).

Juste un mot pour faire un bilan de la performance des sondeurs, une excellente performance comme tout le monde l'a remarqué puisque les résultats sont à l'intérieur de la marge d'erreur pour tous les principaux candidats, comme le montre le graphique suivant (utilisant les sondages de la dernière semaine seulement) tiré du blogue de PJ Fournier, avec sa collabaration: http://blog.qc125.com/2017/04/comparaison-des-resultats-du-1er-tour.html .

Nous avions prédit une possible surestimation de Mélenchon. Cela ne s'est pas produit, fort probablement parce que des partisans de Hamon sont passés à Mélenchon à la dernière heure en voyant sa performance. Mélenchon avait fait des gains aux dépens de Hamon tout le long de la campagne. L'appui à Le Pen avait été un peu surestimé mais, comme ses appuis étaient en déclin dans les derniers jours, comme le vote a lieu trois jours après les derniers sondages, la prédiction est à peu près parfaite.

Just a word about the pollsters' performance in the recent French election. This was an excellent performance as everybody noticed since the results for all the main candidates are within the margin of error of the polls, as shown in the graph (using only the polls conducted during the last week). The graph comes from PJ Fournier's blog, with his collaboration: http://blog.qc125.com/2017/04/comparaison-des-resultats-du-1er-tour.html.

We had predicted an overestimation of Mélenchon. It did not happen, likely because at the last minute, supporters of Hamon decided to vote for him (he had made gains from Hamon during the whole campaign). Le Pen has been somewhat overestimated but, since support for her was declining during the last week, and since the last polls were conducted three days before the vote, the prediction is quite perfect.

samedi 22 avril 2017

Tomorrow, the French presidential election

First a word to say that there is a new feature in this blog, for this election. This blog is a collaboration with P.J. Fournier (Qc125.com), which allows for a combination of competence.

And so, today’s topic, what should we expect for the French presidential election tomorrow?

Let us examine first the polls published during the last weeks. This first graph show change in support for the five main candidates since the beginning of March. It shows what other researchers, pollsters and media alike have shown. Support for Macron and Le Pen has varied a little since the beginning of the campaign. Support for Macron is quite stable. Meanwhile, support for Le Pen decreases somewhat. Support for Fillon has been stable lately while Hamon and Mélenchon exchange support. At the end, Mélenchon is now tied with Fillon at 20%. These estimates are dependent upon all the polls published since the beginning of March.

If we use only the polls conducted since the beginning of April, the analysis is less dependent upon older polls. Is the portrait different? Not really. The conclusions are the same. All the polls show Macron slightly ahead of Le Pen, with Fillon and Mélenchon tied in 3^rd and 4^th place.

And what about the margin of error?

If we take the margin of error of each poll, we could conclude, as some have done, that « everything can happen”, this because support for the four main candidates are usually within the margin of error for individual polls. This interpretation is not adequate. The margin of error for the all the polls combined is much smaller. In a way, it is as if we could combine all the samples or if we took into account the fact that the current estimations are dependent upon the previous ones. It is not as if « anything » can happen. Since the method used in the preceding graphs does not allow to show the margin of error of the estimation of the regression lines, the following graph will allow to show this in a more evident way.

Since there has been lots of movement in the two last weeks, it is possible to estimate the margin of error for all the polls published during that period, in a way as if they had all been conducted at the same time. However it gives more weight to the last polls (using a squared weighting) in order to compensate. It is a conservative estimation of the margin of error. The following graph allows for a visual portrait of the confidence intervals for each candidate’s support. It takes into account all the polls conducted from April 8 to 21. The intervals are not large since there is not much variation between the estimates of the various pollsters because of the methodology they use (see later on in this post).

What can we conclude? If the polls are reliable, it is impossible to be sure who, between Macron and Le Pen, will finish first because statistically they get equal support (the confidence intervals overlap). The same thing happens with Fillon and Mélenchon. However, the graph also shows that the confidence intervals for Fillon and Le Pen slightly overlap. Le Pen could get a score as low as 20.7% while Fillon could go as high as 21%, i.e. he could finish second. On the contrary, Mélenchon is significantly lower than all the other main candidates. In short, if we rely on polls, the two who are most likely to finish first are Macron and Le Pen but the possibility of a Macron-Fillon 2^nd round also exists. We have tried other hypotheses using different periods and weights and we get similar results.

Are polls reliable?

This is « the question ». In order to answer this question, one has two rely on two types of information, i.e. the methodological ones and history.

First, methodological information. What is interesting in the French situation is that the pollsters have to file methodological information and their data with the Commission des sondages, a government body. The Commission’s experts can check the data and decide whether the estimates match the data for each poll. The methodological “Notices” are available for everybody to consult on the Commission’s web site here: http://www.commission-des-sondages.fr/notices/.

One author of this blog, Claire Durand, had examined these files for the 2002 presidential election (see: https://academic.oup.com/poq/article/68/4/602/1884181/The-Polls-in-the-2002-French-Presidential-Election#29033826) and the 2007 election https://doi.org/10.1093/ijpor/edn029. In 2002, when respondents were asked whom they had voted for at the preceding election, only around 5% reported having voted for Jean-Marie Le Pen, the extreme-right candidate who had received 15% at the 1997 election. In 2007, JM Le Pen had been over-estimated at 14% while he received 10% of the vote. Just after the first round, only 3% to 7% reported having voted for him. In short, support for JM Le Pen was largely under reported and this caused problems in the estimation of the vote. It was necessary to multiply those who declared having voted for Le Pen by 2-3 times and even more. When we examine the files at the Commission des sondages this year, the situation is very different. Support for Marine Le Pen in the 2012 election is only slightly under reported. Support for the two main candidates, Hollande and Sarkozy, tends to be over-reported, a situation that is usual for that type of question.

This year, pollsters like Opinion Way and IFOP present the results of its polls, before any weighting or adjustment, and after weighting and adjustment, this for the whole sample and for those who declare being sure to vote. These estimations show that weighting and adjustments have a very small impact on estimations. The information from the other pollsters are less detailed but the information we could consult allow to be confident that the samples are quite representative socio-demographically and socio-politically. It is thus possible to conclude that a catastrophe like in 2002 is not likely to occur this year. Reports of past vote are very accurate. This could be due to the fact that most polls are now self-administered (web polls) and also to the fact that support for Marine Le Pen is much less “shameful” than support for her father.

However, adjusting using report of past vote that is used in France (and also by many pollsters in the UK) will normally tend to produce an underestimation of the candidates whose share is increasing compared to the previous election and overestimate those whose share is decreasing, this because report of past vote is not very reliable and is even less reliable when time has passed. In short, people tend to adjust their memory on their current voting intention (see: http://surveyinsights.org/?p=3543)

Given this information and the fact that the data is checked by the Commission’s experts, herding – like what had occurred in the French election of 2002 where five out of six estimates of support for Jospin were similar – would be almost impossible and could be detected. The low variance in estimates is likely due to adjustments using recall of previous votes, a procedure that mathematically reduces variance.

Now a word about history. Historically, in the 1^st round of the French presidential elections, right wing candidates tend to be under-estimated and left-wing candidates over-estimated. In addition, in elections in general, support for small candidates tend to be over-estimated, either because supporters tend to vote less or because they finally decide to cast a “strategic” vote for one of the candidates in the lead. What happened in 2012? The vote for Hollande and Sarkozy has been estimated almost perfectly (https://fr.wikipedia.org/wiki/Liste_de_sondages_sur_l%27%C3%A9lection_pr%C3%A9sidentielle_fran%C3%A7aise_de_2012#Avril_2012). However, the vote for Marine Le Pen had been lightly underestimated (one-two points lower than her final score of 17.9%) and support for Mélenchon had been quite overestimated, at 14-15 %, while he received 11.1% of the vote.

What are the consequences for tomorrow’s election? Le Pen, who has slightly increase her support compared to 2012 and who has been historically underestimated, could be underestimated on Sunday. As for Fillon, it is more difficult to reach a conclusion. He does not have a positive image in the media and the right-wing candidates tend to be underestimated. However, since he has less support than Sarkozy at the preceding election, adjustment using vote recall could lead to an overestimation. If these two possible effects cancel out, his support is very well estimated. For Mélenchon and Hamon, likely overestimation, Mélenchon because he is on the “far-left” and he has been substantially overestimated in 2012, Hamon, because small candidates tend to be overestimated. And what about Macron? Well, for Macron, we have no reliable information that would allow to devise whether his support is adequately estimated.

In conclusion, unless there is a catastrophe like in 2002, which is very unlikely given the methodological information provided, the highest probability is Macron – Le Pen for the 2^nd round. All the analyses lead to this conclusion. A poll conducted in the middle of last week has shown Le Pen, Fillon and Mélenchon tied but the next polls did not show similar estimates. In fact, the most recent polls all showed increase support for Macron. The second possibility would be Macron-Fillon for the 2^nd round. It is not likely but it cannot be totally excluded. Why not a Macron-Mélenchon? In addition to what has already been mentioned, we should add that the Brexit reminded us that “old” people win consultations, and “old” people support Fillon more than Mélenchon. Is it possible that the polls go wrong? In such an election, it is possible, but it is unlikely.

Demain l'élection présidentielle française

An english post will follow.

D’abord un mot pour vous annoncer une nouveauté pour l’analyse des sondages de cette élection. Ce message est fait en duo avec P.J. Fournier (Qc125.com), ce qui nous permet de combiner nos compétences.

Et donc, attaquons-nous au sujet du jour, à quoi s’attendre dans l’élection présidentielle de demain?

Pour commencer, regardons les sondages réalisés au cours des dernières semaines. Le premier graphique montre l’évolution de l’intention de vote depuis mars. Il montre ce que bien d’autres chercheurs et la plupart des instituts de sondage ont montré : Pour Macron et Le Pen, un peu de mouvement depuis le début de la campagne. Macron se maintient pendant que l’appui à Le Pen diminue un peu dernièrement. Pendant ce temps, l’appui à Fillon s’est stabilisé alors que Hamon et Mélenchon se sont échangés les appuis. Au final, Mélenchon est maintenant à égalité avec Fillon, à 20%. Ces estimations sont dépendantes de tous les sondages réalisés depuis le début mars.

Lorsque l’on prend le graphique des intentions de vote seulement à partir d’avril, ce qui rend l’analyse moins dépendante des sondages les plus anciens, le portrait est-il différent? Pas vraiment. Les conclusions sont les mêmes. Les sondages montrent tous Macron légèrement en avance sur Le Pen en tête, avec Fillon et Mélenchon à égalité en troisième et quatrième place.

Et la marge d’erreur?

Étant donné la marge d’erreur des sondages pris individuellement, certains ont avancé que « tout peut arriver » puisque les appuis aux quatre principaux candidats sont à l’intérieur de la marge d’erreur. Cette interprétation n’est pas correcte. La marge d’erreur tenant compte de l’ensemble des sondages est nettement plus petite que la marge d’erreur de chaque sondage, un peu comme si on faisait un pool de l’ensemble des sondages ou que l’on tenait compte du fait que les estimations actuelles sont tributaires des estimations passées. Comme la méthode d’estimation présentée dans les graphiques ne permet pas de montrer la marge d’erreur de la ligne de régression, le graphique suivant permet une illustration plus évidente.

Comme il y a eu très peu de mouvement au cours des deux dernières semaines, il est possible d’estimer la marge d’erreur de l’ensemble des sondages de ces deux dernières semaines, un peu comme s’ils avaient tous été réalisés en même temps. Il s’agit d’une estimation plus conservatrice de l’erreur possible des sondages. Le graphique suivant permet de visualiser cette marge d’erreur. La bande pour chaque candidat donne l’intervalle de confiance de chaque estimation en prenant tous les sondages réalisés du 8 au 21 avril et en donnant plus de poids aux plus récents (pondération au carré). Les intervalles ne sont pas très étendus puisqu’il y a eu peu de variation entre les estimations des sondages étant donné la méthodologie utilisée (voir plus loin).

Que peut-on en conclure? Si les sondages sont fiables, il est impossible de déterminer de façon certaine qui de Macron ou de Le Pen finira en tête puisqu’ils sont à égalité statistique (Les intervalles de confiance se chevauchent. C’est la même chose pour Fillon et Mélenchon. Par contre, le graphique montre également que les intervalles de confiance se chevauchent pour Le Pen et Fillon. Le Pen pourrait obtenir aussi peu que 20,7% et Fillon pourrait être à 21% soit un peu plus haut que Le Pen. Par contre, Mélenchon est significativement plus bas que tous les autres candidats de tête. Bref, si on se fie aux sondages, les deux premiers seraient le plus probablement Macron et Le Pen mais la possibilité d’un deuxième tour Macron – Fillon existe également. Nous avons fait d’autres hypothèses en prenant des périodes différentes et des pondérations différentes. Les résultats sont les mêmes.

Les sondages sont-ils fiables?

Voilà la question de l’heure. Pour tenter d’y répondre, il faut faire appel aux informations méthodologiques d’une part et à l’histoire d’autre part.

D’abord les informations méthodologiques. L’intérêt de la situation française est que les sondeurs doivent déposer des notices techniques et leurs données auprès de la Commission des sondages. La conformité des estimations publiées avec les données collectées est vérifiée par des experts. Ces notices sont disponibles sur le site web de la Commission http://www.commission-des-sondages.fr/notices/.

Un des auteurs de ce blogue, Claire Durand, avait examiné ces fiches pour l’élection de 2002 (voir : https://academic.oup.com/poq/article/68/4/602/1884181/The-Polls-in-the-2002-French-Presidential-Election#29033826) et celle de 2007 https://doi.org/10.1093/ijpor/edn029. En 2002, lorsque l’on demandait aux Français pour qui ils avaient voté à l’élection précédente, en 1997, seuls environ 5% disaient avoir voté Jean-Marie Le Pen alors que celui avait recueilli 15% des votes à l’élection. En 2007, on constate la même situation immédiatement après le scrutin de 1^er tour. Jean-Marie Le Pen est surestimé par les sondages à 14% alors qu’il n’obtient que 10%. Au lendemain de l’élection, seuls 3% à 7% des répondants déclarent avoir voté Le Pen. Bref, le vote Le Pen était fortement sous-déclaré ce qui entraînait des problèmes pour l’estimation du vote. On devait multiplier par 2 à 3 et parfois plus les répondants qui disaient avoir voté Le Pen.

Un examen des fiches déposées à la Commission des sondages cette année montre une situation très différente. Le vote pour Marine Le Pen en 2012 est à peine sous-déclaré. Il y a une tendance à la sur déclaration du vote pour les deux principaux candidats, Hollande et Sarkozy, ce que l’on retrouve souvent dans le rappel de vote.

Cette année, des firmes comme Opinion Way et IFOP présentent les informations sur les résultats bruts et les estimations obtenues après pondération et après chacun des redressements effectués, ceci pour l’ensemble des répondants et uniquement pour ceux qui sont certains d’aller voter. Ces estimations montrent que les pondérations et redressements ont peu d’impact sur les estimations. Les données présentées par les autres sondeurs sont moins détaillées mais elles permettent quand même d’estimer que les échantillons semblent assez représentatifs sur le plan socio-démographique et socio-politique. On peut donc penser que la catastrophe de 2002 est peu susceptible de se reproduire cette année. Les rappels de vote sont très bons, ce qui peut être dû tant au fait que les sondages sont maintenant auto-administrés – ils sont presque tous faits par Internet -- qu’au fait que le vote pour Marine Le Pen n’est pas aussi diabolisé que celui pour son père.

Par ailleurs, le redressement par le rappel de vote pratiqué en France (et au Royaume Uni aussi d’ailleurs) aura normalement tendance à produire une sous-estimation des candidats qui sont en montée par rapport à l’élection précédente et à sur-estimer ceux qui sont en descente, ceci parce que le rappel de vote n’est pas très fiable et l’est d’autant moins avec le temps qui passe. En gros, les gens ont tendance à ajuster leur rappel de vote sur leur intention de vote actuelle (voir: http://surveyinsights.org/?p=3543).

Étant donné l’ensemble de ces informations et le fait que les données des sondages sont vérifiées par les experts de la Commission des sondages, une situation de « herding » (la tendance à suivre le troupeau) comme celle qui avait eu lieu en 2002 – cinq estimations sur six étaient semblables pour Jospin -- serait maintenant presque impossible et pourrait être détectée. La faible variance des estimations est plutôt due au redressement par le rappel de vote qui produit mathématiquement une réduction de la variance.

Maintenant l’aspect historique. Historiquement dans les élections présidentielles de 1^er tour en France, la droite a tendance à être sous-estimée et la gauche surestimée. De plus, dans les élections en général, les petits candidats auront tendance à être sur-estimés, soit parce que leurs partisans n’iront pas voter ou qu’ils décideront de faire un vote « utile ». Que s’est-il passé en 2012? Le vote pour Hollande et Sarkozy avait été estimé presque parfaitement par les sondages (https://fr.wikipedia.org/wiki/Liste_de_sondages_sur_l%27%C3%A9lection_pr%C3%A9sidentielle_fran%C3%A7aise_de_2012#Avril_2012). Par contre, le vote pour Marine Le Pen avait été un peu sous-estimé (un à deux points de moins que son score final de 17,9%) et l’appui à Mélenchon avait été surestimé -- à 14-15 points -- alors qu’il a finalement recueilli 11,1% du vote.

Quelles conséquences pour l’élection de demain? Le Pen, en légère progression par rapport à 2012 et historiquement sous-estimée, pourrait l’être également dimanche. Pour Fillon, c’est nettement plus difficile. Comme il n’a pas une bonne image médiatique et que la droite est souvent – mais pas toujours – sous-estimée, il pourrait l’être. Par contre, comme il recueille moins d’appuis que Sarkozy, le redressement par le rappel de vote pourrait entrainer une surestimation. Si les deux effets s’annulent, il est bien estimé! Pour Mélenchon et Hamon, probable surestimation, Mélenchon parce que le plus à gauche et parce qu’il a été le plus surestimé en 2012, Hamon parce que les petits candidats sont généralement surestimés. Et Macron? Et bien, pour Macron, on n’a aucun élément fiable pour estimer l’intention de vote.

En conclusion, au final, à moins d’une catastrophe comme en 2002 ce qui serait très étonnant étant donné les méthodologies utilisées présentement, la très forte probabilité est un duel Macron - Le Pen au deuxième tour. Toutes les analyses pointent dans cette direction. Un sondage en milieu de semaine avait montré Le Pen, Fillon et Mélenchon presque à égalité, mais les autres sondages n’ont pas confirmé cette tendance. Ils ont plutôt confirmé la remontée de Macron. La deuxième possibilité serait un duel Macron – Fillon, peu probable mais non exclus à 100%. Pourquoi pas un duel Macron – Mélenchon? Outre les faits mentionnés plus haut, il faut ajouter que le Brexit nous a rappelé que ce sont les « vieux » qui gagnent les consultations et les « vieux » sont plus favorables à Fillon qu’à Mélenchon. Est-ce que les sondages pourraient se tromper? Dans une telle élection, certainement, mais c’est peu probable.