Je reçois de plus en plus de questions sur la méthodologie de Qc125. Voici un billet que je mettrai à jour régulièrement pour répondre aux questions des lecteurs et lectrices.
[Dernière mise à jour: 19 mai 2017]
- Comment fonctionne le modèle?
- Où prenez-vous vos chiffres?
- Quelles sont les marges d'erreur?
- Comment lire les graphiques?
- Que sont les comtés solides, probables et pivots?
Le logiciel utilise un générateur de chiffres aléatoires (que j'appellerai ici
random) pour compiler des votes. Ces chiffres sont ensuite classés en ordre et associés à un parti selon les projections des sondages et des tendances électorales récentes.
Par exemple, si vous lancez un dé à vingt reprises, votre résultat pourrait ressembler à ceci:
3, 5, 1, 2, 1, 5, 6, 2, 4, 2, 6, 1, 4, 5, 3, 4, 4, 2, 1, 6
Plaçons-les en ordre:
1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 6
Supposons, par souci de simplicité, qu'un sondage publie que le parti bleu obtient 50% des voix (3/6), que le parti rouge en obtient 33% (2/6) et que le parti vert obtient 17% (1/6). Dans un tel cas, les chiffres 1, 2 et 3 seraient associés aux bleus, les chiffres 4 et 5 aux rouges et le 6, aux verts.
Le vote serait donc:
1, 1, 1, 1, 2, 2, 2, 2, 3, 3,
4, 4, 4, 4, 5, 5, 5,
6, 6, 6
Résultat:
Bleus: 10
Rouges: 7
Verts: 3
Les bleus gagnent la circonscription.
Évidemment, ce n'est pas un dé à six faces que nous lançons. Nous désirons associer un pourcentage de voix pour chacun des partis en lice (la marge d'erreur est discutée plus bas). Supposons que l'on estime que les bleus ont 40% des voix, les rouges 35% et les verts, 25%. Utilisons la fonction
random pour générer 100 chiffres de 0 à 99:
64, 43, 84, 18, 71, 28, 11, 58, 72, 74, 68, 31, 43, 56, 85, 56, 62, 45, 53, 46, 98, 28, 68, 55, 40, 4, 86, 46, 52, 64, 38, 8, 79, 85, 83, 18, 36, 28, 4, 79, 62, 63, 93, 61, 95, 55, 26, 16, 88, 27, 37, 85, 18, 30, 28, 23, 32, 25, 35, 3, 94, 69, 99, 67, 53, 50, 4, 3, 52, 89, 33, 87, 44, 15, 10, 98, 67, 9, 58, 53, 2, 22, 71, 29, 60, 54, 41, 97, 12, 71, 86, 21, 18, 65, 83, 51, 73, 12, 82, 68
Les chiffres de 0 à 39 sont des votes pour les bleus, 40 à 74 des votes pour les rouges et 75 à 99 pour les verts. Plaçons ces chiffres en ordre et classons-les selon le parti:
2, 3, 3, 4, 4, 4, 8, 9, 10, 11, 12, 12, 15, 16, 18, 18, 18, 18, 21, 22, 23, 25, 26, 27, 28, 28, 28, 28, 29, 30, 31, 32, 33, 35, 36, 37, 38,
40, 41, 43, 43, 44, 45, 46, 46, 50, 51, 52, 52, 52, 53, 53, 53, 54, 55, 55, 56, 56, 58, 58, 60, 61, 62, 62, 63, 64, 64, 65, 67, 67, 68, 68, 68, 69, 71, 71, 71, 72, 73, 74,
79, 79, 82, 83, 83, 85, 85, 85, 86, 86, 87, 88, 89, 93, 94, 95, 97, 98, 98, 99
Résultat:
Bleus: 37
Rouges: 42
Verts: 21
Les rouges gagnent la circonscription.
Évidemment, comme les bleus (0 à 39) possèdent une plus grande plage de chiffres que les rouges (40 à 74), les bleus vont statistiquement gagner plus de simulations que les rouges. C'est pourquoi une seule simulation ne suffit pas. Plus il y a de simulations, plus les probabilités calculées seront représentatives.
Certes, l'exemple ci-dessus devrait vous donner une idée du fonctionnement de base du modèle, mais, évidemment, il y a beaucoup plus de facteurs qui entrent en considération. C'est la raison pour laquelle le logiciel m'a
pris plus d'un an à écrire! (Et je tente encore de l'améliorer à chaque utilisation.)
Considérez ceci:
- Il y a 125 circonscriptions au Québec. Elles ont toutes leurs propres particularités, leur propre histoire, leurs propres tendances électorales;
- Chaque circonscription reçoit en moyenne 48 000 votes et non juste 100;
- Les circonscriptions n'ont pas le même nombre d'électeurs. Par exemple, le comté de Nelligan dans le West Island compte 58 200 électeurs, alors que Gaspé n'en contient que 30 800 (chiffres de 2014). Ces deux circonscriptions possèdent le même poids en termes de sièges, mais Nelligan affecte le total du vote populaire presque deux fois plus que Gaspé.
- Ce n'est pas tout. Le taux de participation n'est pas le même pour chaque comté. Par exemple, 83% des électeurs de Montarville (en Montérégie) ont voté en 2014, alors que seulement 41,5% des électeurs d'Ungava (Nord du Québec) ont performé l'exercice démocratique. Certes, ces chiffres varient d'élection en élection, mais on compilant les taux depuis les deux dernières décennies, on peut y déceler des tendances.
Le modèle est donc complexe. Et je ne peux même pas affirmer qu'il est terminé. Il y aura toujours des améliorations à apporter.
En fait, l'aspect le plus complexe du modèle est lié aux marges d'erreur qui 1) varient de région en région, et 2) sont malgré tout en corrélation. Cette facette du modèle est décrite plus bas.
2. Où prenez-vous vos chiffres?
Je commence en prenant les moyennes pondérées des résultats des élections de l'ère post-référendaire (1998, 2003, 2007, 2008, 2012 et 2014) dans chaque circonscription. Les élections récentes possèdent, évidemment, une pondération plus importante.
J'ajuste les chiffres des comtés où des élections partielles ont eu lieu, quoiqu'ils n'ont rarement beaucoup de poids dans la pondération totale.
J'ajuste les chiffres des comtés où des candidats vedettes de chaque parti se présentent (ou « sont parachutés »).
J'utilise les sondages des firmes professionnelles* pour ajuster les tendances de mois en mois. Généralement, hors-campagne et à moins d'un évènement
majeur, les chiffres varient lentement. Je vais donc calculer une moyenne pondérée des sondages des trois à six derniers mois. Évidemment, les sondages plus récents possèdent une pondération plus importante.
(*CROP et Léger sont les seuls à publier des sondages régulièrement au Québec, quoiqu'un nouveau joueur, Mainstreet research, a récemment commencé à publier des sondages au Québec pour le compte de Postmedia. Lorsque des élections générales approchent, d'autres firmes comme Ekos et Forum Research effectuent des sondages au Québec. Ils seront aussi considérés.)
Attention: la pondération accordée aux chiffres de ces firmes est une décision éditoriale de Qc125. Les sondages n'ont pas tous le même poids dans le modèle et ces pondérations sont à la discrétion de Qc125. Je reconnais que ce genre de décision est sujette à la critique et je l'assume pleinement.
Le modèle Qc125 n'ajuste pas les chiffres pour le nombre d'indécis et/ou la répartition des indécis effectuée par les firmes de sondage, sauf dans certains cas extrêmes où le modèle ne ferait qu'augmenter la marge d'erreur locale ou régionale des projections. Les firmes CROP, Léger et Mainstreet publient généralement des distributions d'indécis réalistes et ils sont bien mieux qualifiés dans ce domaine.
3. Quelles sont les marges d'erreur?
Le générateur
random possède lui-même une incertitude qui diminue plus on compile un grand nombre de chiffres. Sur des centaines de simulations compilant chacun des millions de chiffres, les erreurs générées par le
random ne sont pas significatives.
Les sondages à l'échelle de la province possèdent généralement des incertitudes autour de 3%. Cependant, les incertitudes des sondages régionaux sont davantage autour de 5%-6%. Comme le logiciel compile des votes de circonscription en circonscription, une incertitude variant de 5% à 6% est ajoutée au modèle.
De plus, les incertitudes doivent être en corrélation de comté en comté. Par exemple, si le PLQ est sous sa moyenne dans Laval-des-Rapides, il sera aussi statistiquement sous sa moyenne dans Sainte-Rose (aussi à Laval). Si la CAQ performe mieux que prévu dans Saint-Hyacinthe, elle est probablement aussi au-dessus de sa moyenne dans Arthabaska. J'ai découpé le Québec en « régions électorales » qui ne correspondent pas nécessairement avec les régions géographiques québécoises officielles. Les comtés au sein d'une même région ont des tendances électorales similaires (depuis 1998). Attention: ceci ne signifie pas que les comtés d'une même région élisent les mêmes partis, mais plutôt que les mouvements et variations d'élections en élections vont généralement dans le même sens.
Avec une incertitude régionale de 5-6%, le modèle obtient des données ayant des écarts-types autour de 1,5% et des variations minimales/maximales de 4% au niveau national. (Je préfère légèrement surestimer l'incertitude que la sous-estimer.)
Il s'agit ici d'une autre raison pour laquelle des milliers de simulations sont nécessaires pour obtenir un portrait représentatif: par exemple, une simulation va prendre (en moyenne) -2% pour les Libéraux, +3% pour le PQ et -1% pour la CAQ. La simulation suivante pourrait être +2,5% pour le PLQ, -2% pour le PQ et +0,5% pour la CAQ. Une simulation prise à elle seule ne peut pas donner un portrait aussi précis qu'une somme de simulations.
Je n'indique pas l'incertitude sur le graphique des résultats des simulations (voir ci-dessous), parce qu'il ne s'agit que de l'énumération des résultats des simulations:
... mais il y a une incertitude sur la projection du vote populaire et la projection de sièges (voir ci-dessous).
Les chiffres de grande police indiquent la moyenne des résultats des simulations.
(moyenne ± 1,96 × écart-type).
Sur la figure ci-dessous, on constate que le vote populaire moyen du PLQ est de
. De plus, les Libéraux obtiennent entre
sièges dans 19 simulations sur 20. Un vote populaire inférieur ou supérieur à ces valeurs est possible, mais il serait considéré comme une donnée aberrante.
Par exemple, sur la figure ci-dessous, la CAQ obtient un total de siège moyen de 40,7. De plus, elle obtient entre 26,6 et 54,9 sièges dans 19 simulations sur 20. Un total de sièges inférieur ou supérieur à ces valeurs est possible, mais il serait considéré comme une donnée aberrante.
Une autre façon de regarder la probabilité des projections de sièges est de compiler tous les résultats selon leur fréquence, soit:
Dans le scénario ci-dessus, la CAQ peut obtenir entre 12 et 48 sièges, mais il obtient un total entre 24 et 36 sièges bien plus fréquemment.
Encore une fois, plus le nombre de simulations est élevé, plus nous obtenons des résultats statistiquement fiables.
Maintenant que j'ai accumulé quelques projections et que je commence à bien maîtriser l'analyse des données, je me dois de (re)définir certains termes qui reviendront souvent dans le jargon de ce blog.
des simulations. Ces circonscriptions, à moins d'une vague historique similaire à celle du NPD lors des élections fédérales de 2011, changent rarement de mains. Ce sont, par définition, les châteaux forts de chaque parti.
. Lorsque plusieurs de ces comtés changent de couleur, le parti au pouvoir est généralement défait. Ces comtés ne peuvent pas (ou ne devraient pas) être tenus pour acquis lors d'une élection générale, mais ne devraient pas non plus être l'épicentre d'une campagne. Lorsqu'un parti dépense beaucoup de temps et de ressources dans un comté solide, c'est un signe que ce parti joue sur la défensive.
des simulations (*anciennement 67%). Ces comtés pivots sont généralement où les élections générales se gagnent et se perdent.
...ce qui nous donne une représentation visuelle du nombre de circonscriptions réellement en jeu.
Sur la figure des distributions régionales (et sur les cartes), les comtés pivots sont représentés par des couleurs plus pâles. Par exemple, considérez la figure suivante:
Sur la première ligne de cette figure (Montréal, est), on constate que les Libéraux sont en tête dans 6 circonscriptions, dont un pivot. Le Parti québécois mène dans trois circonscriptions, dont un pivot. Québec solidaire est favori dans cinq circonscriptions, dont trois pivots.
Au total, sur cette figure, le PLQ est en tête dans 63 circonscriptions, dont 50 solides/probables et 13 pivots (voir coin inférieur droit de la figure).