Article vaguement relu
Avant toute chose je tiens à rappeler que l’édition 2024 Jeux Olympiques à Paris a provoqué l’expulsion ou servi de prétexte pour expulser de nombreuses personnes, dont la plupart sont vulnérables, de la capitale1. La logique sécuritaire appliquée lors de l’évènement, mais déjà bien rodée depuis des années, a également mené des dizaines de militant·es en garde à vue abusives23.
Petit j’ai adoré regarder les JO et j’admets que mon éveil politique a rendu mon enthousiasme à ce sujet assez amer. Je pense que cette nostalgie m’empêche de prendre des positions et de modifier mes comportements à la hauteur de mes convictions. Là où il m’est très facile de ne plus manger de viande ou de me déplacer sans (directement) brûler de combustibles fossiles j’ai eu du mal à ne pas m’intéresser aux JO. Plus qu’à militer contre paradoxalement.
Alors en attendant que les JO disparaissent ou que l’on parvienne à imaginer une manière de les faire qui ne génère plus systématiquement de nombreux impacts sociaux et environnementaux4, j’ai voulu regarder quelques statistiques à leurs propos.
Les données
J’ai cherché un jeu de données tabulaire comportant toutes les médailles remportées dans l’histoire des JO avec au moins l’édition, la couleur de la médaille, l’athlète, la date, le sport et l’épreuve. Il se trouve que je n’ai pas trouvé. En traînant dans ce monde on tombe souvent sur le site http://www.olympedia.org. Si l’on s’en tient aux résultats je pense que l’on retrouve plus ou moins la même chose sur wikipédia mais je n’ai jamais vraiment pris le temps d’apprendre à interroger wikidata. Le gros désavantage est que les personnes derrière ce site ont arrêté de renseigner la base de donnée. Les résultats post Tokyo 2020 n’y sont donc pas, ni les potentielles mise à jour suite à des contrôles positifs etc. Je ne garantis pas de n’avoir fait aucune erreur dans le scraping des données, notamment pour les premiers JO. Si vous en relevez n’hésitez pas à me le dire.
Voici dans un seul fichier les 37 775 médailles délivrées aux JO d’été :
all.tsv.gz - ~535Ko. Il peut être d’gzipé en un fichier de 5,7Mo avec gunzip all.tsv.gz
ou, si vous n’avez pas la place, lu directement avec zcat all.tsv.gz
.
Le format est le suivant :
1 id : identifiant de la page de résultat du site olympedia.org
2 date : date de l'évènement. Actuellement dans un non standardisé, désolé
3 location : lieu de l'évènement
4 edition : année des JO (par ex : 2004 pour Athène)
5 sport : sport de l'évènement
6 event : épreuve pour lequel la médaille a été octroyé. Par exemple sport=athlétisme, event=saut en hauteur
7 country : pays de l'athlète
8 athlete : athlète médaillé
9 color : couleur de la médaille
10 team : est-ce que l'évènement se joue par équipe
11 countrycode : code IOC du pays de l'athlète[^8]
Des statistiques
Deux remarques avant de se lancer :
- Ne partez pas du principe qu’un évènement c’est trois athlètes qui se partagent l’or l’argent et le bronze. De nombreuses épreuves se jouent par par équipe voir distribuent plusieurs médailles d’une même couleur (le judo et la boxe donnent deux bronzes par exemple). Il existe même un évènement par équipe où les USA ont présenté plusieurs équipes ! Malheureusement il est difficile de faire la part des choses dans un TSV.
- Le TSV contient une ligne par personne qui a obtenue une médaille. Un évènement de handball représente donc toute une floppée de ligne même si, ramené au pays, cela ne représente qu’une seule médaille. Avant de faire des statistiques sur les médailles par pays ils faut donc écraser les résultats des évènements par équipe.
Une fois le données récupérées je me suis rendu compte que j’étais très peu inspiré pour en faire des statistiques. La seule chose qui me soit venu à l’esprit a été de vérifier l’idée selon laquelle l’escrime est le sport qui pourvoi le plus de médailles à la France. A la lumière du point 2. il faut d’abord dédupliquer les médailles des évènements par équipe. Pour cela on retire le nom des athlètes et on retire les duplicats. Il ne reste plus qu’à filtrer sur la France, conserver le sport et les compter :
$ cut -f8 --complement all.tsv | sort -u | #Retirer les athlètes
grep -w FRA | #Filtrer sur la France
cut -f5 | #Garder que les sports
sort | uniq -c | sort -n #Les compter
[...]
36 Rowing
43 Swimming
51 Sailing
57 Judo
62 Cycling Track
68 Athletics
120 Fencing
Cela confirme qu’effectivement l’escrime est le plus grand pourvoyeur de médaille pour la France et de très loin. Cela dit, regardant les JO depuis 2004 j’avais l’intuition qu’il ne fournissait pas plus de deux fois plus de médailles que les autres sports. J’ai donc émit l’hypothèse que tout cela avait changé avec le temps. Vérifions. J’ai écrit un script qui récupère le nombre de médaille d’un pays par sport par année. Par exemple pour la France pour les cinq “meilleurs” sports :
year | Fencing | Athletics | Cycling Track | Judo | Sailing |
---|---|---|---|---|---|
1900 | 15 | 7 | 6 | 0 | 26 |
1904 | 0 | 0 | 0 | 0 | 0 |
1908 | 4 | 2 | 5 | 0 | 1 |
1912 | 0 | 2 | 0 | 0 | 1 |
… | |||||
2008 | 4 | 3 | 2 | 4 | 3 |
2012 | 0 | 3 | 3 | 7 | 1 |
2016 | 3 | 6 | 1 | 5 | 3 |
2020 | 5 | 1 | 2 | 8 | 3 |
On voit qu’effectivement la distribution des médailles dans le temps n’est pas uniforme. On a des années tout à fait exceptionnelle comme l’année 1900 avec les 15 et 26 médailles respectivement en escrime et en voile. Le judo lui est top 4 alors que la première médaille n’était possible qu’en 1964 :
$ < all.tsv cut-f4,5 | sort -u | grep Judo
1964 Judo
1972 Judo
1976 Judo
1980 Judo
1984 Judo
[...]
Reproduisons donc le même tableau en cumulé depuis 1964 et en y ajoutant à la main les résultats de 2024 :
year | Fencing | Athletics | Cycling Track | Judo | Sailing |
---|---|---|---|---|---|
1964 | 60 | 37 | 30 | 0 | 32 |
1968 | 62 | 39 | 35 | 0 | 32 |
1972 | 65 | 41 | 36 | 3 | 34 |
1976 | 68 | 42 | 37 | 4 | 34 |
1980 | 74 | 43 | 39 | 8 | 34 |
1984 | 81 | 47 | 40 | 11 | 35 |
1988 | 84 | 48 | 40 | 13 | 37 |
1992 | 89 | 49 | 40 | 20 | 39 |
1996 | 96 | 53 | 46 | 26 | 39 |
2000 | 102 | 53 | 52 | 32 | 39 |
2004 | 108 | 55 | 54 | 33 | 41 |
2008 | 112 | 58 | 56 | 37 | 44 |
2012 | 112 | 61 | 59 | 44 | 45 |
2016 | 115 | 67 | 60 | 49 | 48 |
2020 | 120 | 68 | 62 | 57 | 51 |
2024 | 127 | 69 | 63 | 67 | 53 |
On voit que la compétition entre le judo et l’escrime est bien plus serrée qu’il n’y paraît puisqu’en 15 éditions les deux sports ont remporté presque le même nombre de médailles, à un rythme deux fois plus élevé que l’athlétisme et le cyclisme sur piste. Sous forme de graph5 :
Conclusion : bien qu’en absolu l’escrime mérite son statut de plus grand pourvoyeur de médaille cela s’explique principalement par une présence du sport depuis la toute première édition des JO modernes et une avance quelque peu injuste du fait des jeux un peu particulier de 1900. Depuis l’introduction du judo aux JO ce sport tient tête à l’escrime en tant que plus grand pourvoyeur de médaille. Il est en passe de devenir le second sport devant l’athlétisme qui lui est au ralenti sur les trois dernières éditions et est passé devant le cyclisme sur piste, autre sport reconnu comme très fort pour les français·e, à Paris.
Cependant une analyse honnête ne devrait pas s’arrêter là. En effet, il n’est pas tout à fait juste de comparer les sport entre eux sans prendre en compte le nombre de médailles mises en jeux. On comprend aisément qu’il sera impossible pour le handball d’être un sport majeur selon cette métrique puisqu’une domination totale ne remporterait que deux médailles à un pays donné. A l’inverse, un très grand athlète dans une discipline telle que la natation peut rapporter à ellui seul·e quatre médailles d’or voir plus pour son pays. Cf. Marchand à Paris, Phelps à Pékin, Ledecky à Rio etc. La mesure de la domination d’un pays dans un sport se mesure donc plutôt au pourcentage de médailles mise en jeux qu’il remporte. La mesure comparative de la contribution d’un sport au total des médailles d’un pays devrait donc faire de même.
Commençons par savoir combien de médailles ont été mises en jeu pour un sport donné :
< data tail -n+2 | cut --complement -f8 | sort -u | grep " team" | cut --complement -f7,8,9,10 | sort -u > t
< data tail -n+2 | cut --complement -f8 | sort -u | grep " notteam" | sort -u > nt
cat t nt | cut -f5 | sort | uniq -c | sort -rn
2854 Athletics
1538 Swimming
1353 Wrestling
996 Boxing
878 Artistic Gymnastics
784 Shooting
672 Weightlifting
602 Judo
526 Rowing
516 Canoe Sprint
466 Fencing
[...]
On constate bien que la natation et l’athlétisme sont sur-représentés, de même que les sports de combats avec leurs nombreuses catégories de poids. Les sports par équipe sont à l’inverse moins bien dotées. C’est d’autant plus vrai qu’il n’est pas possible pour un pays de remporter plusieurs médailles sur des compétitions par équipe puisqu’elle n’investit qu’une seule équipe6. A l’extrême inverse il est possible, comme la Suisse l’a fait en VTT féminin en 2020, de remporter toutes les médailles d’un évènement solo donné7. Il suffit d’avoir au moins trois athlètes qualifié·es. Pour gérer cette exception on peut se baser sur la dernière colonne qui nous renseigne si l’épreuve est par équipe ou pas. Si elle l’est on ne compte qu’une seule ligne sur les n de dispos. Je n’ai pas de certitude que tout soit exact dans cette manière de procéder mais ça devrait être assez proche de la réalité.
Information importante pour notre duel “escrime vs judo”, il y a plus d’opportunités de médailles en judo qu’en escrime et ce malgré le fait que l’escrime soit un sport plus ancien. Cela suggère qu’il est possiblement plus remarquable que la France remporte autant de médailles en escrime qu’en Judo depuis 1948. Pour en avoir le coeur net calculons le top 10 des pourcentages de médailles remportées sur le nombre de médailles gagnables pour chaque sport pour la France :
Croquet 100.0
Cricket 100.0
Equestrian Driving 66.6
Equestrian Vaulting 50.0
Motorboating 33.3
Handball 26.9
Rugby Sevens 25.0
Fencing 25.7
Tug-Of-War 20.0
Polo 20.0
La France intouchable en croquet et en criquet. Ces résultats nous apprennent d’abord qu’il existait lors des premiers JO tout un tas de disciplines dorénavant disparues. La France remportant une part démesurées des médailles à cette époque là, les statistiques sont évidemment très favorables. En réalité le premier sport qui est notable ici est le handball pour lequel la France est montée sur 27% des podiums. Pour la suite ne prenons en compte que les sports pratiqués depuis 1944 :
Handball 26.9
Rugby Sevens 25.0
Fencing 25.7
Basketball 18.7
Equestrian Jumping 16.3
Canoe Slalom 16.6
Sailing 15.2
Cycling Track 15.6
Archery 15.9
Cycling Mountain Bike 14.2
Equestrian Dressage 13.6
Cycling Road 11.0
Tennis 9.21
Judo 9.46
[...]
On voit que le pourcentage de l’escrime est bien plus élevé que celui du judo. Autrement dit la France est effectivement plus dominante en escrime qu’en judo même si le second apporte peu ou prou le même nombre de médaille que le premier depuis son existence.
Je mets d’autre stats sympas au fur et à mesure ici.
Un jeu
Toute personne qui regarde les JO, ou qui a lu cet article jusque là, sait que les podiums sont souvent assez stéréotypés. Des coréen·nes pour le tir à l’arc, des chinois·es pour le plongeon, des tchèques et des slovaques pour le canoë/kayak, des japonais·es et des français·es pour le judo. Il devrait donc être possible de deviner le sport en voyant les pays sur le podium. J’en ai fait un jeu.
Pour qu’il fonctionne il faudra d’abord avoir téléchargé le gros TSV puis
modifié la ligne data=...
pour y mettre le chemin du TSV. Il est dommage
d’avoir à télécharger +500Ko pour jouer, je vais faire un client de jeu qui
requête les données à la volée sur le serveur pour ne pas avoir à le faire.
Alternativement il est installé sur le serveur. Le lancer avec oly
. Il n’a
été testé que sous debian 12.
Consulter les highscores des membres du serveur
-
https://lereversdelamedaille.fr/wp-content/uploads/2024/06/Rapport-1-an-de-nettoyage-social-le-revers-de-la-medaille.pdf ↩
-
https://extinctionrebellion.fr/blog/2024/07/30/retour-sur-une-semaine-de-repression.html ↩
-
https://www.mediapart.fr/journal/france/160824/huit-femmes-du-collectif-des-hijabeuses-ont-ete-placees-en-garde-vue-en-marge-des-jo ↩
-
Parce que trois faits listés précédemment ne sont pas des faits isolés. Ce genre de choses (et parfois plus grave) surviennent systématiquement à tous les JO. ↩
-
sauf au moins une exception que j’ai repéré dans des vieux JO des US qui avaient investis 13 équipes pour une compétition de gymnastiques. ↩
-
Si ça vous intéresse c’est survenu 111 fois de 1948 à 2020. Vous pouvez avoir la liste en tapant cette magnifique commande :
< all.tsv awk -F'\t' '$4>1944' | cut -f1,7 | sort -u | cut -f1 | sort | uniq -c | sort -n | grep -E "^ *1 " | cut -f2 | xargs -I{} grep "^{}" all.tsv
. Evidemment c’est les Etats-Unis et l’URSS qui mènent la danse des cartons pleins avec respectivement 47 et 20 podiums complets chacun. ↩