Pierre Carrée: Fluctuation d'échantillonnage et élections présidentielles

Au départ, j'avoue avoir été longtemps rétive aux statistiques en tant que discipline des mathématiques. J'ai même dit des choses du type "les stats devraient être enseignées en éco ou dans d'autres disciplines, de façon filée, mais pas en maths", ou "on fait dire n'importe quoi aux statistiques, les critères statistiques ne signifient rien.". J'ai carrément honte. Grave, comme diraient mes élèves. Heureusement, avec l'âge , on devient moins bête (parfois).

On peut utiliser de façon malhonnête ou erronée les statistiques, certes. Comme tous les chiffres, comme les titres des articles de quotidien, comme des citations sorties de leur contexte. Mais cela n'enlève rien aux méthodes qui constituent les statistiques. Méthodes qui, du point de vue de leur enseignement, ont considérablement évolué ces dernières années. Savoir calculer une moyenne, une médiane, des quartiles, est toujours un objectif des programmes, mais c'est surtout leur interprétation conjointe qui nous intéresse. D'ailleurs, analyser la signification du couple médiane-moyenne se voit maintenant en troisième et permet des discussions très intéressantes avec les élèves sur le bien fondé de l'évaluation sommative (ce qui apporte de l'eau à mon moulin d'évaluation sur des modes différents).

Depuis quelques années, on étudie la fluctuation d'échantillonnage dès la classe de seconde. Je me souviens d'avoir commencé à l'étudier il y a une dizaine d'année, en section euro : c'était un thème très enseigné en Allemagne, et mes élèves de DNL maths-allemand l'avaient découvert en allemand. C'est la première fois que je me suis amusée avec des stats. D'ailleurs j'avais choisi ce thème pour mon exposé de certification maths-allemand : il s'agissait d'évaluer si un fruitier disait vrai sur des clémentines, dont il prétendait qu'elles contenaient très peu de pépins. A partir d'un échantillon, on cherchait à le vérifier mathématiquement. C'était très chouette, et j'avais choisi cette thématique car je savais que le jury ne serait pas constitué uniquement de matheux. Là, je pouvais parler maths en étant comprise de non matheux, pas dans les méthodes, mais dans les enjeux, dans les tenants et les aboutissants.

Hier, j'ai aidé une élève de seconde qui était déstabilisée par ce chapitre. Elle peinait à identifier ce qu'il fallait retenir, ce qu'il fallait comprendre. Elle cherchait en fait à dégager des "formules" plus ou moins magiques, et le côté interprétation l'a surprise. Nous avons résolu différents exercices, mais un m'a particulièrement plu : il s'agissait de travailler sur le premier tour de l'élection présidentielle de 2002.

Un rappel wikipedien des faits :
Le 21 avril 2002 est inédit dans la vie politique française, puisqu'un représentant d'un parti classé à l'extrême droite de l'échiquier politique a réussi à se qualifier pour le second tour d'une élection présidentielle. À 20 heures, les estimations donnaient Jacques Chirac en tête avec 20 % des voix, contre 17 % à Jean-Marie Le Pen, lequel éliminait alors Lionel Jospin, chef du gouvernement qui recueillait 16 % des suffrages.

Sur Survey Magazine (le magazine en ligne des professionnels des études, sondages, statistiques & technologies d'enquêtes), voici ce qu'on peut lire :

"Les sondages se sont encore trompés." La presse a été pratiquement unanime, en 2002, pour présenter les instituts de sondages comme incompétents, voire partiellement responsables du résultat électoral, par l'influence sur les comportement des électeurs qu'ils pouvaient avoir eus. Géo-phile propose un document intéressant sur ce thème.

L'exercice que nous avons résolu hier avec mon élève se présentait ainsi :

Les derniers sondages du 19 avril 2002 par BVA auprès d’environ 1000 personnes donnaient comme prévisions 19% pour Jacques Chirac, 18% pour Lionel Jospin et 14% pour Jean-Marie Le Pen. On a donc accusé les sondages de s'être trompés.

Un statisticien, Michel Lejeune, a exprimé dans Le Monde un point de vue à contre-courant à l'époque :

L'exercice pose la question : "entre les deux points de vue contradictoires exprimés, lequel adoptez-vous ? Justifiez votre réponse."

Nous avons déterminé, avec mon élève, les intervalles de fluctuation au seuil de 95%. Le terme peut paraître barbare, mais en fait ce n'est pas si compliqué : nous avons calculé qu'il y avait 95% de chances que les scores des candidats soient :

- Pour Jacques Chirac, entre 15,8% et 22,2%

- Pour Lionel Jospin, entre 14,8% et 21,2%

- Pour Jean-Marie Le Pen, entre 10,8% et 17,2%.

Que constate-t-on ?

- Les sondages ont terriblement fluctué eux-mêmes. le résultat du sondage plus haut, et celui de BVA peu avant l'élection, différaient déjà sensiblement.

- Choisir de comparer un sondage qui date de six mois avant les élections et le résultat du premier tour est assez fallacieux...

- A partir des sondages BVA, on obtient des intervalles de fluctuation qui sont compatibles avec les résultats. Mais pour s'en apercevoir, il faut interpréter les résultats et non les accepter comme précis et définitifs.

Alors une dernière question (pour aujourd'hui) se pose : les "gens" sont-ils incapables de comprendre ce genre de choses, pour qu'on n'en parle pas dans les médias ? Ne pourrait-on pas parler d'intervalle, de marge, bref nuancer les sondages ?

Je propose une réponse (dont je suis convaincue) : si !

Pierre Carrée

Pages

samedi 24 mai 2014

Fluctuation d'échantillonnage et élections présidentielles

2 commentaires: