Attention: cet article raconte plus ou moins n’importe quoi.
Puisque je consulte presque tous les jours la liste des vidéos de mes
abonnements je les regarde généralement très peu de temps après leurs
publications. C’était le cas de la vidéo de Veritasium sur le caoutchoux. A ce
moment seuls les sous-titres automatiques étaient disponibles. Lors de
l’écriture je me suis rendu compte que la vidéo proposait des sous-titres
“manuels” dès le lendemain. L’hypothèse que je formule dans cet article au sujet
de la dégradation de la qualité des sous-titres pour les grosses productions
n’est donc pas corroborée par l’exemple de Veritasium. Puisqu’il se pourrait que
ce soit vrai pour d’autres chaînes je publie tout de même l’article en le
modifiant légèrement
Ah aussi, je connais rien au monde du sous-titrage donc je raconte sûrement n’imp.
L’émergence des IA de transcription
Depuis quelques temps maintenant le domaine de la transcription automatique d’audio a été chamboulé par l’arrivée des modèles des intelligences artificielles à “self-supervised transformers”. Entre nous, j’y connais rien. Simplement entre Chirp de Google, Whisper d’OpenAI, et les nombreux modèles d’Nvidia il n’a à priori jamais été aussi facile de transcrire de l’audio avec une précision relativement bonne. Whisper étant open source1 même framasoft est entré dans la danse avec lokas. D’ailleurs n leaderboard des modèles classés par justesse est disponible sur Huggingface.
Il se trouve que j’aime beaucoup les sous-titres. J’en utilise dès que je peux, y compris parfois pour les vidéos en français. C’est selon moi un excellent exemple de mesure d’accessibilité qui profite à tout le monde. Pour certaines châines Youtube, dont je sais que les sous-titres sont de très bonne qualité et les images rarement utiles, il m’arrive même de ne télécharger que les sous-titres et les lire comme si la vidéo était un article écrit.
C’est donc avec tristesse que je constate que les sous-titres de certaines chaînes auxquelles je suis abonné sont de mois bonne qualité que par le passé et je pense savoir qui blamer.
L’exemple de Veritasium
Prenons pour exemple la chaîne de vulgarisation scientifique2 [Veritasium]. Veritasium a débuté avec son fondateur Derek posant des questions de culture générale scientifique à des personnes sur un campus universitaire australien dans des vidéos courtes de quelques minutes. La chaîne s’est assez rapidement professionalisée, produisant des vidéos avec un meilleur son, une meilleure image, mieux écrites et plus longues3. Avec cette amélioration de la production sont arrivés les sous-titres. Par exemple, la vidéo concernant la préférence que certains moustiques ont pour certains personnes propose une très grande liste de sous-titres automatiques, la plupart traduits depuis l’anglais, mais également cinq pistes de sous-titres “manuels” :
$ yt-dlp --list-subs --simulate https://www.youtube.com/watch?v=38gVZgE39K8
[...]
[info] Available subtitles for 38gVZgE39K8:
Language Name Formats
ar Arabic vtt, srt, ttml, srv3, srv2, srv1, json3
en English vtt, srt, ttml, srv3, srv2, srv1, json3
fr French vtt, srt, ttml, srv3, srv2, srv1, json3
pt-BR Portuguese (Brazil) vtt, srt, ttml, srv3, srv2, srv1, json3
es Spanish vtt, srt, ttml, srv3, srv2, srv1, json3
Ces sous-titres ont probablement été produits par une entreprise spécialisée
payé par Veritasium pour transcrire la vidéo. Vous pouvez récupérer la version
vtt anglaise ici ou la télécharger vous
même avec yt-dlp ainsi :
$ yt-dlp --write-subs --skip-download https://www.youtube.com/watch?v=38gVZgE39K8
Au visionnage de la vidéo il devient évident que ces sous-titres ont été écrits par des humain·es. Par exemple dans cet extrait au tout début de la vidéo :
00:00:45.200 –> 00:00:50.660 Derek: Here, he maintains colonies of many different species of mosquitoes, and one exotic strain
00:00:50.760 –> 00:00:53.420 he actually feeds with his own blood(!)
00:00:53.420 –> 00:00:56.620 Hansen: No, no, I’m serious. These ones are made from my blood.
00:00:56.740 –> 00:00:58.780 D: Really!? H: Yes! Absolutely, yeah.
00:00:58.900 –> 00:01:03.800 D: You feed these!? H: And I’m the only one feeding them - I can’t ask my students, you know, that would be a nightmare
on remarque que les sous-titres désignent qui parle dans la pièce, la vidéo ne
montrant pas toujours les visages des personnes. Les sous-titres ajoutent même
un peu d’émotion avec le (!) puis raccourcisent les noms des deux
protagonistes pour le reste de la vidéo.
Plus tard on peut voir cet extrait :
00:10:20.820 –> 00:10:24.740 D: is it just by accident that some people are less attractive to mosquitoes than others?
00:10:25.780 –> 00:10:27.560 H: …….
00:10:27.560 –> 00:10:30.620 H: …That is a really good question! [both laugh]
ou celui-ci :
00:07:08.320 –> 00:07:15.660 D: DNA. So, at the first location, you have one copy of a letter change which actually makes you significantly
00:07:15.900 –> 00:07:18.660 D: protected from mosquitoes. R: Oh, no way!
dans lequel les sous-titres rendent compte de l’ambiance de la conversation avec des pauses et des didascalyes. Dans l’ensemble les sous-titres ne contiennent aucune erreur de transcription y compris sur des composés chimiques :
00:09:09.460 –> 00:09:17.780 Those chemicals we naturally give off are octanal, nonanal, decanal, and 6-methyl-5-hepten-2-one.
On peut comparer ces sous-titres avec ceux de la dernière vidéo concernant le
caoutchoux. Elle ne comporte que
des sous-titres automatiques, à priori générés par Youtube avec chirp. Le
fichier anglais est ici (300Ko). Voici le
tout début de la vidéo :
00:00:00.880 –> 00:00:02.869 align:start position:0%
What00:00:01.199
happens 00:00:01.520if 00:00:01.760I 00:00:01.920heat 00:00:02.159up 00:00:02.320this 00:00:02.560rubber 00:00:02.869 –> 00:00:02.879 align:start position:0% What happens if I heat up this rubber
00:00:02.879 –> 00:00:05.510 align:start position:0% What happens if I heat up this rubber band?00:00:03.600
When 00:00:03.840you 00:00:04.080heat 00:00:04.400materials 00:00:04.880like 00:00:05.200glass 00:00:05.510 –> 00:00:05.520 align:start position:0% band? When you heat materials like glass
00:00:05.520 –> 00:00:08.629 align:start position:0% band? When you heat materials like glass or00:00:05.839
plastic, 00:00:06.560the 00:00:06.879atoms 00:00:07.359vibrate 00:00:07.839faster.
Première remarque, le transcripteur automatique fait un usage plus poussé du
format vtt. Il encode un peu de style (align:start position:0%) et fait
apparaitre les mots un à un au fur et à mesure qu’ils sont prononcés.
Personnellement je n’ai pas ne vois pas bien l’intérêt hormis pour éviter de
spoiler la fin d’une phrase, ce qu’un humain peut également faire en
s’arrangeant avec l’affichage des sous-titre. Ca donne un style un peu tik
tok je te montre un mot à la fois. Cet encodage de
sous-titrage met à mal ma pratique de lecture de sous-titre dont je parlais plus
tôt mais il est possible de le contourner en téléchargeant un format plus simple
comme les srt.
Les vrais soucis commencent lorsque l’on s’intéresse à la qualité de ce qui a été transcrit. Par exemple :
00:38:14.870 –> 00:38:14.880 align:start position:0% permission in night trial we see maybe
Vers la fin de la vidéo il est question du “nirtal”, un composant de certains caoutchoux. Non seulement le transcripteur se trompe en l’écrivant “night trial” mais il n’est pas cohérent avec lui même puisque plus tard il l’écrit encore autrement :
00:38:24.069 –> 00:38:24.079 align:start position:0% >> Nitrial gloves were developed in the
Il lui arrive aussi de faire des erreurs sur des mots assez communs comme “flakes” :
00:23:14.230 –> 00:23:14.240 align:start position:0% flexcks of soot. But by the afternoon,
Lorsque Derek discute avec ??? les sous-titres n’offrent aucune indication sur la personne en train de parler :
00:34:44.000 –> 00:34:45.349 align:start position:0% >> So stretch stretch it fast. What do you notice?
00:34:45.349 –> 00:34:45.359 align:start position:0% notice?
00:34:45.359 –> 00:34:46.869 align:start position:0% notice? >> It’s00:34:45.520
a 00:34:45.679little 00:34:45.839warm. 00:34:46.320Maybe 00:34:46.869 –> 00:34:46.879 align:start position:0% >> It’s a little warm. Maybe
00:34:46.879 –> 00:34:48.550 align:start position:0% >> It’s a little warm. Maybe >> it’s00:34:47.119
hot. 00:34:47.440It’s 00:34:47.599gone 00:34:47.760up 00:34:47.919in 00:34:48.079temperature 00:34:48.320by 00:34:48.550 –> 00:34:48.560 align:start position:0% >> it’s hot. It’s gone up in temperature by
L’exemple ici n’est pas très flagrant puisque le montage montre systématiquement à l’écran la personne en train de parler. Dans un cas similaire à la vidéo sur les moustiques la situation pourrait être particulièrement confuse pour une personne n’entendant pas les voix. De plus les lignes sont terminées sans grand soin apporté à la logique de la conversation donnant l’impression d’un flot ininterrompu de parole.
On note tout de même que le modèle est capable de reconnaître des moments sans discours avec de la musique en fond :
00:33:43.990 –> 00:33:44.000 align:start position:0% [Music]
Le lendemain de la publication la chaîne a ajouté des sous-titres elle-même. Ils sont, je trouve, de meilleur qualité. Evidemment on ne retrouve pas les fautes d’orthographe :
00:23:10.770 –> 00:23:12.330 like flakes of soot.
[…]
00:37:55.830 –> 00:37:58.620 Nitrile rubber, a synthetic rubber used for gloves,
et le rythme est bien meilleur. On retrouve également les indications de qui parle mais avec plus d’économie que la vidéo sur les moustiques. Par exemple, vers 10m30s Derek parle visiblement à la caméra puis la vidéo coupe vers une animation racontée par une autre personne. Il n’est plus possible d’induire qui parle depuis la vidéo alors l’information apparaît dans les sous-titres.
00:10:31.620 –> 00:10:35.190 by walking around in all rubber outfits.
00:10:35.190 –> 00:10:36.840 - [Henry] His hands were always covered
00:10:36.840 –> 00:10:38.190 with gum elastic.
On trouve une seule dydascalie à la fin :
00:40:55.097 –> 00:40:58.180 (bright music fades)
Il est tout à fait possible que ces sous-titres soient générés au moins partiellement automatiquement puis corrigés à la main, par une entreprise spécialisée ou l’équipe elle même4.
Baisse de la qualité : pourquoi et pour qui ?
L’argument développé ici n’est pas soutenu par l’exemple de Veritasium. Il est peut-être vrai pour d’autres chaînes mais faute de preuve il se peut qu’il soit totalement fantasque.
Youtube a lancé la transcription automatique en novembre 2009. De mémoire la justesse du système laissait à désirer, même pour l’anglais qui n’avait pas à passer par une étape de traduction. Quelques centaines de millier de vidéos seulement avaient des sous-titres et très peu de chaînes avaient de grosses productions. Autrement dit la transription automatique, aussi mauvaise soit-elle, était du pur bonus. Si elle était mauvaise, tant pis, et si l’on parlait anglais, que l’on avait un accent américain prototypique et une bonne diction, tant mieux.
Avec la professionalisation de Youtube de plus en plus de grosses chaînes ont commencé à vouloir proposer des sous-titres. A ce stade là l’outil de transcription automatique n’était pas d’une qualité satisfaisante pour quiconque se prennait un peu au sérieux. La seule option était alors de transcrire la vidéo soit-même ou de payer une personne pour le faire. Dans les deux cas ça coûtait cher.
Avec l’avènement des transformeurs, des gros datasets et des gros GPU les systèmes de transcription ont fait un grand bond en avant en terme de qualité. Soudainement il était possible d’avoir une transcription pour pas cher5 et honorable. Le rapport qualité/prix étant dorénavant à l’avantage de la transcription automatique, selon que l’on accorde beaucoup d’importance aux subtilités documentées plus tôt, certaines chaînes ont délaissés les sous-titres professionels pour la transcription automatique. Autrement dit les outils de transcription automatique sont perçus comme suffisamment bons pour être substitués à de la transcription professionelles par certaines productions mais encore trop mauvais pour égaler leurs qualités. Les sous-titres des vidéos concernées voient donc leur qualité baisser. Cette situation concernerait paradoxalement les productions soucieuses d’avoir des sous-titres de qualité, ayant donc eu recours à du sous-titrage professionnel durant des années.
Les conclusions du paragraphes précédant paraissent moins probable suite à l’upload de sous-titre par Veritasium. Il est cependant probable que la qualité croissante du sous-titre automatique ait par ailleurs une influence sur le monde du sous-titrage professionnel. Etant donné le temps que cela peut économiser je serais très surpris que les boites spécialisée ne travaillent pas en corrigeant/remaniant des transcriptions génèrées automatiquement. Comment cela impacte-t-il la qualité des sous-titres ? Est-ce que ce pourrait être la raison derrière le style un peu différent des sous-titres “manuels” de la vidéo des moustiques et de la vidéo du caoutchoux6 ? Je ne sais pas, il faudrait demander à une personne du métier.
Une chose est sûr, la transcription automatique à fait exploser le nombre de vidéo sous-titrée. Boostée par la consommation de vidéo courtes dans des lieux communs où la bien séance nous dicte de ne pas mettre ses hauts-parleur, il est possible qu’une proportion croissante de vidéos produites soit sous-titrée, même mal.
L’avenir du sous-titrage automatique et son sombre secret
Aujourd’hui c’est moins bien que les humains mais c’est beaucoup mieux qu’avant. Il est très probable que ça s’améliorer, monsieur phi. Pas parce que la tehcnique magique le progrés mais parce que les gros ont un intérêt économique.
En 2009 Google dit que c’est pour l’accéssibilité : https://research.google/blog/automatic-captioning-in-youtube/ A priori c’est pas parce que c’est des gentils mais c’est pour étendre l’ensemble de vidéos qu’une personne donnée, avant sa langue etc, peut regarder. Youtube n’est encore qu’au début de sa phase d’expansion et le nerf de la guerre est simple, faire croître la quantité de contenu et croître les heures de visionnage.
Des années plus tard, Youtube
Est-ce que le but de whisper c’est pas juste de faire du texet pour les LLM, comme le but de markitdown est des générer du texte pour les LLM ?
https://www.theverge.com/2024/4/6/24122915/openai-youtube-transcripts-gpt-4-training-data-google
-
dans la où une énorme IA entrainée sur on sait pas trop quoi peut l’être ↩
-
et aprfois de [pub déguiser pour la tech], voir [cette vidéo] ↩
-
bien que l’ancienne règle Youtube ne permettant l’ajout de pubs supplémentaires au milieu de la vidéo que si elle dépasse les 10 minutes n’y soit pas pour rien non plus. A l’époque les titres et les miniatures n’étant pas encore trop clickbait, c’est en regardant la longueur des vidéos que l’on pouvait supposer de leurs qualités avant des les avoir regarder. Une vidéo de 12m34 ou 9m15s de long étaient probablement honnêtes, une vidéo de 10m02s avait plus de chance d’être pleine de filler. ↩
-
mais personne n’est crédités à ce sujet ↩
-
voir gratuitement du point de vue de la personne qui fait la vidéo puisque youtube ne fait pas payer la transcription automatique ↩
-
ou certainement : avec 8 ans d’écart entre les deux, le sous-titrage n’a pas été fait par les mêmes personnes avec les mêmes pratiques et outils. ↩