Des données, des stats et un jeu sur les JO d'été

Retour accueil


Article vaguement relu

Avant toute chose je tiens à rappeler que l’édition 2024 Jeux Olympiques à Paris a provoqué l’expulsion ou servi de prétexte pour expulser de nombreuses personnes, dont la plupart sont vulnérables, de la capitale1. La logique sécuritaire appliquée lors de l’évènement, mais déjà bien rodée depuis des années, a également mené des dizaines de militant·es en garde à vue abusives23.

Petit j’ai adoré regarder les JO et j’admets que mon éveil politique a rendu mon enthousiasme à ce sujet assez amer. Je pense que cette nostalgie m’empêche de prendre des positions et de modifier mes comportements à la hauteur de mes convictions. Là où il m’est très facile de ne plus manger de viande ou de me déplacer sans (directement) brûler de combustibles fossiles j’ai eu du mal à ne pas m’intéresser aux JO. Plus qu’à militer contre paradoxalement.

Alors en attendant que les JO disparaissent ou que l’on parvienne à imaginer une manière de les faire qui ne génère plus systématiquement de nombreux impacts sociaux et environnementaux4, j’ai voulu regarder quelques statistiques à leurs propos.

Les données

J’ai cherché un jeu de données tabulaire comportant toutes les médailles remportées dans l’histoire des JO avec au moins l’édition, la couleur de la médaille, l’athlète, la date, le sport et l’épreuve. Il se trouve que je n’ai pas trouvé. En traînant dans ce monde on tombe souvent sur le site http://www.olympedia.org. Si l’on s’en tient aux résultats je pense que l’on retrouve plus ou moins la même chose sur wikipédia mais je n’ai jamais vraiment pris le temps d’apprendre à interroger wikidata. Le gros désavantage est que les personnes derrière ce site ont arrêté de renseigner la base de donnée. Les résultats post Tokyo 2020 n’y sont donc pas, ni les potentielles mise à jour suite à des contrôles positifs etc. Je ne garantis pas de n’avoir fait aucune erreur dans le scraping des données, notamment pour les premiers JO. Si vous en relevez n’hésitez pas à me le dire.

Voici dans un seul fichier les 37 775 médailles délivrées aux JO d’été : all.tsv.gz - ~535Ko. Il peut être d’gzipé en un fichier de 5,7Mo avec gunzip all.tsv.gz ou, si vous n’avez pas la place, lu directement avec zcat all.tsv.gz.

Le format est le suivant :

1  id            : identifiant de la page de résultat du site olympedia.org
2  date          : date de l'évènement. Actuellement dans un non standardisé, désolé
3  location      : lieu de l'évènement
4  edition       : année des JO (par ex : 2004 pour Athène)
5  sport         : sport de l'évènement
6  event         : épreuve pour lequel la médaille a été octroyé. Par exemple sport=athlétisme, event=saut en hauteur
7  country       : pays de l'athlète
8  athlete       : athlète médaillé
9  color         : couleur de la médaille
10 team          : est-ce que l'évènement se joue par équipe
11  countrycode  : code IOC du pays de l'athlète[^8]

Des statistiques

Deux remarques avant de se lancer :

  1. Ne partez pas du principe qu’un évènement c’est trois athlètes qui se partagent l’or l’argent et le bronze. De nombreuses épreuves se jouent par par équipe voir distribuent plusieurs médailles d’une même couleur (le judo et la boxe donnent deux bronzes par exemple). Il existe même un évènement par équipe où les USA ont présenté plusieurs équipes ! Malheureusement il est difficile de faire la part des choses dans un TSV.
  2. Le TSV contient une ligne par personne qui a obtenue une médaille. Un évènement de handball représente donc toute une floppée de ligne même si, ramené au pays, cela ne représente qu’une seule médaille. Avant de faire des statistiques sur les médailles par pays ils faut donc écraser les résultats des évènements par équipe.

Une fois le données récupérées je me suis rendu compte que j’étais très peu inspiré pour en faire des statistiques. La seule chose qui me soit venu à l’esprit a été de vérifier l’idée selon laquelle l’escrime est le sport qui pourvoi le plus de médailles à la France. A la lumière du point 2. il faut d’abord dédupliquer les médailles des évènements par équipe. Pour cela on retire le nom des athlètes et on retire les duplicats. Il ne reste plus qu’à filtrer sur la France, conserver le sport et les compter :

$ cut -f8 --complement all.tsv | sort -u | #Retirer les athlètes
    grep -w FRA |                          #Filtrer sur la France
    cut -f5 |                              #Garder que les sports
    sort | uniq -c | sort -n               #Les compter
[...]
36  Rowing
43  Swimming
51  Sailing
57  Judo
62  Cycling Track
68  Athletics
120 Fencing

Cela confirme qu’effectivement l’escrime est le plus grand pourvoyeur de médaille pour la France et de très loin. Cela dit, regardant les JO depuis 2004 j’avais l’intuition qu’il ne fournissait pas plus de deux fois plus de médailles que les autres sports. J’ai donc émit l’hypothèse que tout cela avait changé avec le temps. Vérifions. J’ai écrit un script qui récupère le nombre de médaille d’un pays par sport par année. Par exemple pour la France pour les cinq “meilleurs” sports :

year Fencing Athletics Cycling Track Judo Sailing
1900 15 7 6 0 26
1904 0 0 0 0 0
1908 4 2 5 0 1
1912 0 2 0 0 1
2008 4 3 2 4 3
2012 0 3 3 7 1
2016 3 6 1 5 3
2020 5 1 2 8 3

On voit qu’effectivement la distribution des médailles dans le temps n’est pas uniforme. On a des années tout à fait exceptionnelle comme l’année 1900 avec les 15 et 26 médailles respectivement en escrime et en voile. Le judo lui est top 4 alors que la première médaille n’était possible qu’en 1964 :

$ < all.tsv cut-f4,5 | sort -u | grep Judo
1964    Judo
1972    Judo
1976    Judo
1980    Judo
1984    Judo
[...]

Reproduisons donc le même tableau en cumulé depuis 1964 et en y ajoutant à la main les résultats de 2024 :

year Fencing Athletics Cycling Track Judo Sailing
1964 60 37 30 0 32
1968 62 39 35 0 32
1972 65 41 36 3 34
1976 68 42 37 4 34
1980 74 43 39 8 34
1984 81 47 40 11 35
1988 84 48 40 13 37
1992 89 49 40 20 39
1996 96 53 46 26 39
2000 102 53 52 32 39
2004 108 55 54 33 41
2008 112 58 56 37 44
2012 112 61 59 44 45
2016 115 67 60 49 48
2020 120 68 62 57 51
2024 127 69 63 67 53

On voit que la compétition entre le judo et l’escrime est bien plus serrée qu’il n’y paraît puisqu’en 15 éditions les deux sports ont remporté presque le même nombre de médailles, à un rythme deux fois plus élevé que l’athlétisme et le cyclisme sur piste. Sous forme de graph5 :

Cumul des médailles en Escrime, athlé, cyclisme sur piste, judo et voile de la France de 1900 à 2024

Conclusion : bien qu’en absolu l’escrime mérite son statut de plus grand pourvoyeur de médaille cela s’explique principalement par une présence du sport depuis la toute première édition des JO modernes et une avance quelque peu injuste du fait des jeux un peu particulier de 1900. Depuis l’introduction du judo aux JO ce sport tient tête à l’escrime en tant que plus grand pourvoyeur de médaille. Il est en passe de devenir le second sport devant l’athlétisme qui lui est au ralenti sur les trois dernières éditions et est passé devant le cyclisme sur piste, autre sport reconnu comme très fort pour les français·e, à Paris.

Cependant une analyse honnête ne devrait pas s’arrêter là. En effet, il n’est pas tout à fait juste de comparer les sport entre eux sans prendre en compte le nombre de médailles mises en jeux. On comprend aisément qu’il sera impossible pour le handball d’être un sport majeur selon cette métrique puisqu’une domination totale ne remporterait que deux médailles à un pays donné. A l’inverse, un très grand athlète dans une discipline telle que la natation peut rapporter à ellui seul·e quatre médailles d’or voir plus pour son pays. Cf. Marchand à Paris, Phelps à Pékin, Ledecky à Rio etc. La mesure de la domination d’un pays dans un sport se mesure donc plutôt au pourcentage de médailles mise en jeux qu’il remporte. La mesure comparative de la contribution d’un sport au total des médailles d’un pays devrait donc faire de même.

Commençons par savoir combien de médailles ont été mises en jeu pour un sport donné :

< data tail -n+2 | cut --complement -f8 | sort -u | grep "  team" | cut --complement -f7,8,9,10 | sort -u > t
< data tail -n+2 | cut --complement -f8 | sort -u | grep "  notteam" | sort -u > nt
cat t nt | cut -f5 | sort | uniq -c | sort -rn

2854  Athletics
1538  Swimming
1353  Wrestling
996   Boxing
878   Artistic Gymnastics
784   Shooting
672   Weightlifting
602   Judo
526   Rowing
516   Canoe Sprint
466   Fencing
[...]

On constate bien que la natation et l’athlétisme sont sur-représentés, de même que les sports de combats avec leurs nombreuses catégories de poids. Les sports par équipe sont à l’inverse moins bien dotées. C’est d’autant plus vrai qu’il n’est pas possible pour un pays de remporter plusieurs médailles sur des compétitions par équipe puisqu’elle n’investit qu’une seule équipe6. A l’extrême inverse il est possible, comme la Suisse l’a fait en VTT féminin en 2020, de remporter toutes les médailles d’un évènement solo donné7. Il suffit d’avoir au moins trois athlètes qualifié·es. Pour gérer cette exception on peut se baser sur la dernière colonne qui nous renseigne si l’épreuve est par équipe ou pas. Si elle l’est on ne compte qu’une seule ligne sur les n de dispos. Je n’ai pas de certitude que tout soit exact dans cette manière de procéder mais ça devrait être assez proche de la réalité.

Information importante pour notre duel “escrime vs judo”, il y a plus d’opportunités de médailles en judo qu’en escrime et ce malgré le fait que l’escrime soit un sport plus ancien. Cela suggère qu’il est possiblement plus remarquable que la France remporte autant de médailles en escrime qu’en Judo depuis 1948. Pour en avoir le coeur net calculons le top 10 des pourcentages de médailles remportées sur le nombre de médailles gagnables pour chaque sport pour la France :

Croquet              100.0
Cricket              100.0
Equestrian Driving   66.6
Equestrian Vaulting  50.0
Motorboating         33.3
Handball             26.9
Rugby Sevens         25.0
Fencing              25.7
Tug-Of-War           20.0
Polo                 20.0

La France intouchable en croquet et en criquet. Ces résultats nous apprennent d’abord qu’il existait lors des premiers JO tout un tas de disciplines dorénavant disparues. La France remportant une part démesurées des médailles à cette époque là, les statistiques sont évidemment très favorables. En réalité le premier sport qui est notable ici est le handball pour lequel la France est montée sur 27% des podiums. Pour la suite ne prenons en compte que les sports pratiqués depuis 1944 :

Handball               26.9
Rugby Sevens           25.0
Fencing                25.7
Basketball             18.7
Equestrian Jumping     16.3
Canoe Slalom           16.6
Sailing                15.2
Cycling Track          15.6
Archery                15.9
Cycling Mountain Bike  14.2
Equestrian Dressage    13.6
Cycling Road           11.0
Tennis                 9.21
Judo                   9.46
[...]

On voit que le pourcentage de l’escrime est bien plus élevé que celui du judo. Autrement dit la France est effectivement plus dominante en escrime qu’en judo même si le second apporte peu ou prou le même nombre de médaille que le premier depuis son existence.

Je mets d’autre stats sympas au fur et à mesure ici.

Un jeu

Toute personne qui regarde les JO, ou qui a lu cet article jusque là, sait que les podiums sont souvent assez stéréotypés. Des coréen·nes pour le tir à l’arc, des chinois·es pour le plongeon, des tchèques et des slovaques pour le canoë/kayak, des japonais·es et des français·es pour le judo. Il devrait donc être possible de deviner le sport en voyant les pays sur le podium. J’en ai fait un jeu.

Pour qu’il fonctionne il faudra d’abord avoir téléchargé le gros TSV puis modifié la ligne data=... pour y mettre le chemin du TSV. Il est dommage d’avoir à télécharger +500Ko pour jouer, je vais faire un client de jeu qui requête les données à la volée sur le serveur pour ne pas avoir à le faire. Alternativement il est installé sur le serveur. Le lancer avec oly. Il n’a été testé que sous debian 12.

Consulter les highscores des membres du serveur


  1. https://lereversdelamedaille.fr/wp-content/uploads/2024/06/Rapport-1-an-de-nettoyage-social-le-revers-de-la-medaille.pdf 

  2. https://extinctionrebellion.fr/blog/2024/07/30/retour-sur-une-semaine-de-repression.html 

  3. https://www.mediapart.fr/journal/france/160824/huit-femmes-du-collectif-des-hijabeuses-ont-ete-placees-en-garde-vue-en-marge-des-jo 

  4. Parce que trois faits listés précédemment ne sont pas des faits isolés. Ce genre de choses (et parfois plus grave) surviennent systématiquement à tous les JO. 

  5. Réalisé avec ce script 

  6. sauf au moins une exception que j’ai repéré dans des vieux JO des US qui avaient investis 13 équipes pour une compétition de gymnastiques. 

  7. Si ça vous intéresse c’est survenu 111 fois de 1948 à 2020. Vous pouvez avoir la liste en tapant cette magnifique commande : < all.tsv awk -F'\t' '$4>1944' | cut -f1,7 | sort -u | cut -f1 | sort | uniq -c | sort -n | grep -E "^ *1 " | cut -f2 | xargs -I{} grep "^{}" all.tsv. Evidemment c’est les Etats-Unis et l’URSS qui mènent la danse des cartons pleins avec respectivement 47 et 20 podiums complets chacun.