Ah! les sondages: Demain l'élection présidentielle française

An english post will follow.

D’abord un mot pour vous annoncer une nouveauté pour l’analyse des sondages de cette élection. Ce message est fait en duo avec P.J. Fournier (Qc125.com), ce qui nous permet de combiner nos compétences.

Et donc, attaquons-nous au sujet du jour, à quoi s’attendre dans l’élection présidentielle de demain?

Pour commencer, regardons les sondages réalisés au cours des dernières semaines. Le premier graphique montre l’évolution de l’intention de vote depuis mars. Il montre ce que bien d’autres chercheurs et la plupart des instituts de sondage ont montré : Pour Macron et Le Pen, un peu de mouvement depuis le début de la campagne. Macron se maintient pendant que l’appui à Le Pen diminue un peu dernièrement. Pendant ce temps, l’appui à Fillon s’est stabilisé alors que Hamon et Mélenchon se sont échangés les appuis. Au final, Mélenchon est maintenant à égalité avec Fillon, à 20%. Ces estimations sont dépendantes de tous les sondages réalisés depuis le début mars.

Lorsque l’on prend le graphique des intentions de vote seulement à partir d’avril, ce qui rend l’analyse moins dépendante des sondages les plus anciens, le portrait est-il différent? Pas vraiment. Les conclusions sont les mêmes. Les sondages montrent tous Macron légèrement en avance sur Le Pen en tête, avec Fillon et Mélenchon à égalité en troisième et quatrième place.

Et la marge d’erreur?

Étant donné la marge d’erreur des sondages pris individuellement, certains ont avancé que « tout peut arriver » puisque les appuis aux quatre principaux candidats sont à l’intérieur de la marge d’erreur. Cette interprétation n’est pas correcte. La marge d’erreur tenant compte de l’ensemble des sondages est nettement plus petite que la marge d’erreur de chaque sondage, un peu comme si on faisait un pool de l’ensemble des sondages ou que l’on tenait compte du fait que les estimations actuelles sont tributaires des estimations passées. Comme la méthode d’estimation présentée dans les graphiques ne permet pas de montrer la marge d’erreur de la ligne de régression, le graphique suivant permet une illustration plus évidente.

Comme il y a eu très peu de mouvement au cours des deux dernières semaines, il est possible d’estimer la marge d’erreur de l’ensemble des sondages de ces deux dernières semaines, un peu comme s’ils avaient tous été réalisés en même temps. Il s’agit d’une estimation plus conservatrice de l’erreur possible des sondages. Le graphique suivant permet de visualiser cette marge d’erreur. La bande pour chaque candidat donne l’intervalle de confiance de chaque estimation en prenant tous les sondages réalisés du 8 au 21 avril et en donnant plus de poids aux plus récents (pondération au carré). Les intervalles ne sont pas très étendus puisqu’il y a eu peu de variation entre les estimations des sondages étant donné la méthodologie utilisée (voir plus loin).

Que peut-on en conclure? Si les sondages sont fiables, il est impossible de déterminer de façon certaine qui de Macron ou de Le Pen finira en tête puisqu’ils sont à égalité statistique (Les intervalles de confiance se chevauchent. C’est la même chose pour Fillon et Mélenchon. Par contre, le graphique montre également que les intervalles de confiance se chevauchent pour Le Pen et Fillon. Le Pen pourrait obtenir aussi peu que 20,7% et Fillon pourrait être à 21% soit un peu plus haut que Le Pen. Par contre, Mélenchon est significativement plus bas que tous les autres candidats de tête. Bref, si on se fie aux sondages, les deux premiers seraient le plus probablement Macron et Le Pen mais la possibilité d’un deuxième tour Macron – Fillon existe également. Nous avons fait d’autres hypothèses en prenant des périodes différentes et des pondérations différentes. Les résultats sont les mêmes.

Les sondages sont-ils fiables?

Voilà la question de l’heure. Pour tenter d’y répondre, il faut faire appel aux informations méthodologiques d’une part et à l’histoire d’autre part.

D’abord les informations méthodologiques. L’intérêt de la situation française est que les sondeurs doivent déposer des notices techniques et leurs données auprès de la Commission des sondages. La conformité des estimations publiées avec les données collectées est vérifiée par des experts. Ces notices sont disponibles sur le site web de la Commission http://www.commission-des-sondages.fr/notices/.

Un des auteurs de ce blogue, Claire Durand, avait examiné ces fiches pour l’élection de 2002 (voir : https://academic.oup.com/poq/article/68/4/602/1884181/The-Polls-in-the-2002-French-Presidential-Election#29033826) et celle de 2007 https://doi.org/10.1093/ijpor/edn029. En 2002, lorsque l’on demandait aux Français pour qui ils avaient voté à l’élection précédente, en 1997, seuls environ 5% disaient avoir voté Jean-Marie Le Pen alors que celui avait recueilli 15% des votes à l’élection. En 2007, on constate la même situation immédiatement après le scrutin de 1^er tour. Jean-Marie Le Pen est surestimé par les sondages à 14% alors qu’il n’obtient que 10%. Au lendemain de l’élection, seuls 3% à 7% des répondants déclarent avoir voté Le Pen. Bref, le vote Le Pen était fortement sous-déclaré ce qui entraînait des problèmes pour l’estimation du vote. On devait multiplier par 2 à 3 et parfois plus les répondants qui disaient avoir voté Le Pen.

Un examen des fiches déposées à la Commission des sondages cette année montre une situation très différente. Le vote pour Marine Le Pen en 2012 est à peine sous-déclaré. Il y a une tendance à la sur déclaration du vote pour les deux principaux candidats, Hollande et Sarkozy, ce que l’on retrouve souvent dans le rappel de vote.

Cette année, des firmes comme Opinion Way et IFOP présentent les informations sur les résultats bruts et les estimations obtenues après pondération et après chacun des redressements effectués, ceci pour l’ensemble des répondants et uniquement pour ceux qui sont certains d’aller voter. Ces estimations montrent que les pondérations et redressements ont peu d’impact sur les estimations. Les données présentées par les autres sondeurs sont moins détaillées mais elles permettent quand même d’estimer que les échantillons semblent assez représentatifs sur le plan socio-démographique et socio-politique. On peut donc penser que la catastrophe de 2002 est peu susceptible de se reproduire cette année. Les rappels de vote sont très bons, ce qui peut être dû tant au fait que les sondages sont maintenant auto-administrés – ils sont presque tous faits par Internet -- qu’au fait que le vote pour Marine Le Pen n’est pas aussi diabolisé que celui pour son père.

Par ailleurs, le redressement par le rappel de vote pratiqué en France (et au Royaume Uni aussi d’ailleurs) aura normalement tendance à produire une sous-estimation des candidats qui sont en montée par rapport à l’élection précédente et à sur-estimer ceux qui sont en descente, ceci parce que le rappel de vote n’est pas très fiable et l’est d’autant moins avec le temps qui passe. En gros, les gens ont tendance à ajuster leur rappel de vote sur leur intention de vote actuelle (voir: http://surveyinsights.org/?p=3543).

Étant donné l’ensemble de ces informations et le fait que les données des sondages sont vérifiées par les experts de la Commission des sondages, une situation de « herding » (la tendance à suivre le troupeau) comme celle qui avait eu lieu en 2002 – cinq estimations sur six étaient semblables pour Jospin -- serait maintenant presque impossible et pourrait être détectée. La faible variance des estimations est plutôt due au redressement par le rappel de vote qui produit mathématiquement une réduction de la variance.

Maintenant l’aspect historique. Historiquement dans les élections présidentielles de 1^er tour en France, la droite a tendance à être sous-estimée et la gauche surestimée. De plus, dans les élections en général, les petits candidats auront tendance à être sur-estimés, soit parce que leurs partisans n’iront pas voter ou qu’ils décideront de faire un vote « utile ». Que s’est-il passé en 2012? Le vote pour Hollande et Sarkozy avait été estimé presque parfaitement par les sondages (https://fr.wikipedia.org/wiki/Liste_de_sondages_sur_l%27%C3%A9lection_pr%C3%A9sidentielle_fran%C3%A7aise_de_2012#Avril_2012). Par contre, le vote pour Marine Le Pen avait été un peu sous-estimé (un à deux points de moins que son score final de 17,9%) et l’appui à Mélenchon avait été surestimé -- à 14-15 points -- alors qu’il a finalement recueilli 11,1% du vote.

Quelles conséquences pour l’élection de demain? Le Pen, en légère progression par rapport à 2012 et historiquement sous-estimée, pourrait l’être également dimanche. Pour Fillon, c’est nettement plus difficile. Comme il n’a pas une bonne image médiatique et que la droite est souvent – mais pas toujours – sous-estimée, il pourrait l’être. Par contre, comme il recueille moins d’appuis que Sarkozy, le redressement par le rappel de vote pourrait entrainer une surestimation. Si les deux effets s’annulent, il est bien estimé! Pour Mélenchon et Hamon, probable surestimation, Mélenchon parce que le plus à gauche et parce qu’il a été le plus surestimé en 2012, Hamon parce que les petits candidats sont généralement surestimés. Et Macron? Et bien, pour Macron, on n’a aucun élément fiable pour estimer l’intention de vote.

En conclusion, au final, à moins d’une catastrophe comme en 2002 ce qui serait très étonnant étant donné les méthodologies utilisées présentement, la très forte probabilité est un duel Macron - Le Pen au deuxième tour. Toutes les analyses pointent dans cette direction. Un sondage en milieu de semaine avait montré Le Pen, Fillon et Mélenchon presque à égalité, mais les autres sondages n’ont pas confirmé cette tendance. Ils ont plutôt confirmé la remontée de Macron. La deuxième possibilité serait un duel Macron – Fillon, peu probable mais non exclus à 100%. Pourquoi pas un duel Macron – Mélenchon? Outre les faits mentionnés plus haut, il faut ajouter que le Brexit nous a rappelé que ce sont les « vieux » qui gagnent les consultations et les « vieux » sont plus favorables à Fillon qu’à Mélenchon. Est-ce que les sondages pourraient se tromper? Dans une telle élection, certainement, mais c’est peu probable.

Ah! les sondages

samedi 22 avril 2017

Demain l'élection présidentielle française

3 commentaires: