Les IA de transcription d’audio font-t-elles baisser la qualité des sous-titres ?

du moins pour le moment

Attention: cet article raconte plus ou moins n’importe quoi.
Puisque je consulte presque tous les jours la liste des vidéos de mes abonnements je les regarde généralement très peu de temps après leurs publications. C’était le cas de la vidéo de Veritasium sur le caoutchoux. A ce moment seuls les sous-titres automatiques étaient disponibles. Lors de l’écriture je me suis rendu compte que la vidéo proposait des sous-titres “manuels” dès le lendemain. L’hypothèse que je formule dans cet article au sujet de la dégradation de la qualité des sous-titres pour les grosses productions n’est donc pas corroborée par l’exemple de Veritasium. Puisqu’il se pourrait que ce soit vrai pour d’autres chaînes je publie tout de même l’article en le modifiant légèrement

Ah aussi, je connais rien au monde du sous-titrage donc je raconte sûrement n’imp.


L’émergence des IA de transcription

Depuis quelques temps maintenant le domaine de la transcription automatique d’audio a été chamboulé par l’arrivée des modèles des intelligences artificielles à “self-supervised transformers”. Entre nous, j’y connais rien. Simplement entre Chirp de Google, Whisper d’OpenAI, et les nombreux modèles d’Nvidia il n’a à priori jamais été aussi facile de transcrire de l’audio avec une précision relativement bonne. Whisper étant open source1 même framasoft est entré dans la danse avec lokas. D’ailleurs n leaderboard des modèles classés par justesse est disponible sur Huggingface.

Il se trouve que j’aime beaucoup les sous-titres. J’en utilise dès que je peux, y compris parfois pour les vidéos en français. C’est selon moi un excellent exemple de mesure d’accessibilité qui profite à tout le monde. Pour certaines châines Youtube, dont je sais que les sous-titres sont de très bonne qualité et les images rarement utiles, il m’arrive même de ne télécharger que les sous-titres et les lire comme si la vidéo était un article écrit.

C’est donc avec tristesse que je constate que les sous-titres de certaines chaînes auxquelles je suis abonné sont de mois bonne qualité que par le passé et je pense savoir qui blamer.

L’exemple de Veritasium

Prenons pour exemple la chaîne de vulgarisation scientifique2 [Veritasium]. Veritasium a débuté avec son fondateur Derek posant des questions de culture générale scientifique à des personnes sur un campus universitaire australien dans des vidéos courtes de quelques minutes. La chaîne s’est assez rapidement professionalisée, produisant des vidéos avec un meilleur son, une meilleure image, mieux écrites et plus longues3. Avec cette amélioration de la production sont arrivés les sous-titres. Par exemple, la vidéo concernant la préférence que certains moustiques ont pour certains personnes propose une très grande liste de sous-titres automatiques, la plupart traduits depuis l’anglais, mais également cinq pistes de sous-titres “manuels” :

$ yt-dlp --list-subs --simulate https://www.youtube.com/watch?v=38gVZgE39K8
[...]
[info] Available subtitles for 38gVZgE39K8:
Language Name                Formats
ar       Arabic              vtt, srt, ttml, srv3, srv2, srv1, json3
en       English             vtt, srt, ttml, srv3, srv2, srv1, json3
fr       French              vtt, srt, ttml, srv3, srv2, srv1, json3
pt-BR    Portuguese (Brazil) vtt, srt, ttml, srv3, srv2, srv1, json3
es       Spanish             vtt, srt, ttml, srv3, srv2, srv1, json3

Ces sous-titres ont probablement été produits par une entreprise spécialisée payé par Veritasium pour transcrire la vidéo. Vous pouvez récupérer la version vtt anglaise ici ou la télécharger vous même avec yt-dlp ainsi :

$ yt-dlp --write-subs --skip-download https://www.youtube.com/watch?v=38gVZgE39K8

Au visionnage de la vidéo il devient évident que ces sous-titres ont été écrits par des humain·es. Par exemple dans cet extrait au tout début de la vidéo :

00:00:45.200 –> 00:00:50.660 Derek: Here, he maintains colonies of many different species of mosquitoes, and one exotic strain

00:00:50.760 –> 00:00:53.420 he actually feeds with his own blood(!)

00:00:53.420 –> 00:00:56.620 Hansen: No, no, I’m serious. These ones are made from my blood.

00:00:56.740 –> 00:00:58.780 D: Really!? H: Yes! Absolutely, yeah.

00:00:58.900 –> 00:01:03.800 D: You feed these!? H: And I’m the only one feeding them - I can’t ask my students, you know, that would be a nightmare

on remarque que les sous-titres désignent qui parle dans la pièce, la vidéo ne montrant pas toujours les visages des personnes. Les sous-titres ajoutent même un peu d’émotion avec le (!) puis raccourcisent les noms des deux protagonistes pour le reste de la vidéo.

Plus tard on peut voir cet extrait :

00:10:20.820 –> 00:10:24.740 D: is it just by accident that some people are less attractive to mosquitoes than others?

00:10:25.780 –> 00:10:27.560 H: …….

00:10:27.560 –> 00:10:30.620 H: …That is a really good question! [both laugh]

ou celui-ci :

00:07:08.320 –> 00:07:15.660 D: DNA. So, at the first location, you have one copy of a letter change which actually makes you significantly

00:07:15.900 –> 00:07:18.660 D: protected from mosquitoes. R: Oh, no way!

dans lequel les sous-titres rendent compte de l’ambiance de la conversation avec des pauses et des didascalyes. Dans l’ensemble les sous-titres ne contiennent aucune erreur de transcription y compris sur des composés chimiques :

00:09:09.460 –> 00:09:17.780 Those chemicals we naturally give off are octanal, nonanal, decanal, and 6-methyl-5-hepten-2-one.

On peut comparer ces sous-titres avec ceux de la dernière vidéo concernant le caoutchoux. Elle ne comporte que des sous-titres automatiques, à priori générés par Youtube avec chirp. Le fichier anglais est ici (300Ko). Voici le tout début de la vidéo :

00:00:00.880 –> 00:00:02.869 align:start position:0%

What00:00:01.199 happens00:00:01.520 if00:00:01.760 I00:00:01.920 heat00:00:02.159 up00:00:02.320 this00:00:02.560 rubber

00:00:02.869 –> 00:00:02.879 align:start position:0% What happens if I heat up this rubber

00:00:02.879 –> 00:00:05.510 align:start position:0% What happens if I heat up this rubber band?00:00:03.600 When00:00:03.840 you00:00:04.080 heat00:00:04.400 materials00:00:04.880 like00:00:05.200 glass

00:00:05.510 –> 00:00:05.520 align:start position:0% band? When you heat materials like glass

00:00:05.520 –> 00:00:08.629 align:start position:0% band? When you heat materials like glass or00:00:05.839 plastic,00:00:06.560 the00:00:06.879 atoms00:00:07.359 vibrate00:00:07.839 faster.

Première remarque, le transcripteur automatique fait un usage plus poussé du format vtt. Il encode un peu de style (align:start position:0%) et fait apparaitre les mots un à un au fur et à mesure qu’ils sont prononcés. Personnellement je n’ai pas ne vois pas bien l’intérêt hormis pour éviter de spoiler la fin d’une phrase, ce qu’un humain peut également faire en s’arrangeant avec l’affichage des sous-titre. Ca donne un style un peu tik tok je te montre un mot à la fois. Cet encodage de sous-titrage met à mal ma pratique de lecture de sous-titre dont je parlais plus tôt mais il est possible de le contourner en téléchargeant un format plus simple comme les srt.

Les vrais soucis commencent lorsque l’on s’intéresse à la qualité de ce qui a été transcrit. Par exemple :

00:38:14.870 –> 00:38:14.880 align:start position:0% permission in night trial we see maybe

Vers la fin de la vidéo il est question du “nirtal”, un composant de certains caoutchoux. Non seulement le transcripteur se trompe en l’écrivant “night trial” mais il n’est pas cohérent avec lui même puisque plus tard il l’écrit encore autrement :

00:38:24.069 –> 00:38:24.079 align:start position:0% >> Nitrial gloves were developed in the

Il lui arrive aussi de faire des erreurs sur des mots assez communs comme “flakes” :

00:23:14.230 –> 00:23:14.240 align:start position:0% flexcks of soot. But by the afternoon,

Lorsque Derek discute avec ??? les sous-titres n’offrent aucune indication sur la personne en train de parler :

00:34:44.000 –> 00:34:45.349 align:start position:0% >> So stretch stretch it fast. What do you notice?

00:34:45.349 –> 00:34:45.359 align:start position:0% notice?

00:34:45.359 –> 00:34:46.869 align:start position:0% notice? >> It’s00:34:45.520 a00:34:45.679 little00:34:45.839 warm.00:34:46.320 Maybe

00:34:46.869 –> 00:34:46.879 align:start position:0% >> It’s a little warm. Maybe

00:34:46.879 –> 00:34:48.550 align:start position:0% >> It’s a little warm. Maybe >> it’s00:34:47.119 hot.00:34:47.440 It’s00:34:47.599 gone00:34:47.760 up00:34:47.919 in00:34:48.079 temperature00:34:48.320 by

00:34:48.550 –> 00:34:48.560 align:start position:0% >> it’s hot. It’s gone up in temperature by

L’exemple ici n’est pas très flagrant puisque le montage montre systématiquement à l’écran la personne en train de parler. Dans un cas similaire à la vidéo sur les moustiques la situation pourrait être particulièrement confuse pour une personne n’entendant pas les voix. De plus les lignes sont terminées sans grand soin apporté à la logique de la conversation donnant l’impression d’un flot ininterrompu de parole.

On note tout de même que le modèle est capable de reconnaître des moments sans discours avec de la musique en fond :

00:33:43.990 –> 00:33:44.000 align:start position:0% [Music]

Le lendemain de la publication la chaîne a ajouté des sous-titres elle-même. Ils sont, je trouve, de meilleur qualité. Evidemment on ne retrouve pas les fautes d’orthographe :

00:23:10.770 –> 00:23:12.330 like flakes of soot.

[…]

00:37:55.830 –> 00:37:58.620 Nitrile rubber, a synthetic rubber used for gloves,

et le rythme est bien meilleur. On retrouve également les indications de qui parle mais avec plus d’économie que la vidéo sur les moustiques. Par exemple, vers 10m30s Derek parle visiblement à la caméra puis la vidéo coupe vers une animation racontée par une autre personne. Il n’est plus possible d’induire qui parle depuis la vidéo alors l’information apparaît dans les sous-titres.

00:10:31.620 –> 00:10:35.190 by walking around in all rubber outfits.

00:10:35.190 –> 00:10:36.840 - [Henry] His hands were always covered

00:10:36.840 –> 00:10:38.190 with gum elastic.

On trouve une seule dydascalie à la fin :

00:40:55.097 –> 00:40:58.180 (bright music fades)

Il est tout à fait possible que ces sous-titres soient générés au moins partiellement automatiquement puis corrigés à la main, par une entreprise spécialisée ou l’équipe elle même4.

Baisse de la qualité : pourquoi et pour qui ?

L’argument développé ici n’est pas soutenu par l’exemple de Veritasium. Il est peut-être vrai pour d’autres chaînes mais faute de preuve il se peut qu’il soit totalement fantasque.

Youtube a lancé la transcription automatique en novembre 2009. De mémoire la justesse du système laissait à désirer, même pour l’anglais qui n’avait pas à passer par une étape de traduction. Quelques centaines de millier de vidéos seulement avaient des sous-titres et très peu de chaînes avaient de grosses productions. Autrement dit la transription automatique, aussi mauvaise soit-elle, était du pur bonus. Si elle était mauvaise, tant pis, et si l’on parlait anglais, que l’on avait un accent américain prototypique et une bonne diction, tant mieux.

Avec la professionalisation de Youtube de plus en plus de grosses chaînes ont commencé à vouloir proposer des sous-titres. A ce stade là l’outil de transcription automatique n’était pas d’une qualité satisfaisante pour quiconque se prennait un peu au sérieux. La seule option était alors de transcrire la vidéo soit-même ou de payer une personne pour le faire. Dans les deux cas ça coûtait cher.

Avec l’avènement des transformeurs, des gros datasets et des gros GPU les systèmes de transcription ont fait un grand bond en avant en terme de qualité. Soudainement il était possible d’avoir une transcription pour pas cher5 et honorable. Le rapport qualité/prix étant dorénavant à l’avantage de la transcription automatique, selon que l’on accorde beaucoup d’importance aux subtilités documentées plus tôt, certaines chaînes ont délaissés les sous-titres professionels pour la transcription automatique. Autrement dit les outils de transcription automatique sont perçus comme suffisamment bons pour être substitués à de la transcription professionelles par certaines productions mais encore trop mauvais pour égaler leurs qualités. Les sous-titres des vidéos concernées voient donc leur qualité baisser. Cette situation concernerait paradoxalement les productions soucieuses d’avoir des sous-titres de qualité, ayant donc eu recours à du sous-titrage professionnel durant des années.

Les conclusions du paragraphes précédant paraissent moins probable suite à l’upload de sous-titre par Veritasium. Il est cependant probable que la qualité croissante du sous-titre automatique ait par ailleurs une influence sur le monde du sous-titrage professionnel. Etant donné le temps que cela peut économiser je serais très surpris que les boites spécialisée ne travaillent pas en corrigeant/remaniant des transcriptions génèrées automatiquement. Comment cela impacte-t-il la qualité des sous-titres ? Est-ce que ce pourrait être la raison derrière le style un peu différent des sous-titres “manuels” de la vidéo des moustiques et de la vidéo du caoutchoux6 ? Je ne sais pas, il faudrait demander à une personne du métier.

Une chose est sûr, la transcription automatique à fait exploser le nombre de vidéo sous-titrée. Boostée par la consommation de vidéo courtes dans des lieux communs où la bien séance nous dicte de ne pas mettre ses hauts-parleur, il est possible qu’une proportion croissante de vidéos produites soit sous-titrée, même mal.

L’avenir du sous-titrage automatique et son sombre secret

Aujourd’hui c’est moins bien que les humains mais c’est beaucoup mieux qu’avant. Il est très probable que ça s’améliorer, monsieur phi. Pas parce que la tehcnique magique le progrés mais parce que les gros ont un intérêt économique.

En 2009 Google dit que c’est pour l’accéssibilité : https://research.google/blog/automatic-captioning-in-youtube/ A priori c’est pas parce que c’est des gentils mais c’est pour étendre l’ensemble de vidéos qu’une personne donnée, avant sa langue etc, peut regarder. Youtube n’est encore qu’au début de sa phase d’expansion et le nerf de la guerre est simple, faire croître la quantité de contenu et croître les heures de visionnage.

Des années plus tard, Youtube

Est-ce que le but de whisper c’est pas juste de faire du texet pour les LLM, comme le but de markitdown est des générer du texte pour les LLM ?

https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google


  1. dans la où une énorme IA entrainée sur on sait pas trop quoi peut l’être 

  2. et aprfois de [pub déguiser pour la tech], voir [cette vidéo] 

  3. bien que l’ancienne règle Youtube ne permettant l’ajout de pubs supplémentaires au milieu de la vidéo que si elle dépasse les 10 minutes n’y soit pas pour rien non plus. A l’époque les titres et les miniatures n’étant pas encore trop clickbait, c’est en regardant la longueur des vidéos que l’on pouvait supposer de leurs qualités avant des les avoir regarder. Une vidéo de 12m34 ou 9m15s de long étaient probablement honnêtes, une vidéo de 10m02s avait plus de chance d’être pleine de filler. 

  4. mais personne n’est crédités à ce sujet 

  5. voir gratuitement du point de vue de la personne qui fait la vidéo puisque youtube ne fait pas payer la transcription automatique 

  6. ou certainement : avec 8 ans d’écart entre les deux, le sous-titrage n’a pas été fait par les mêmes personnes avec les mêmes pratiques et outils.