
Test de produit
Plaude Note est le meilleur enregistreur vocal que vous puissiez acheter
par Lorenz Keller
Le service web töggl.ch doit pouvoir comprendre et transcrire les dialectes suisses-allemands. Ce n'est pas une tâche facile. J'ai essayé de voir si cela fonctionnait bien.
Tu parles, le logiciel l'écrit. Tu connais maintenant cette méthode sur ton smartphone et elle fonctionne bien par rapport à avant. Mais seulement avec la langue standard, pas avec les dialectes. Pas de chance pour la Suisse, où l'on ne parle presque que le dialecte, même lors d'événements officiels comme les discours de cérémonie ou les assemblées communales. Et dans les vidéos Youtube. Nos vidéos doivent actuellement être sous-titrées à la main pour qu'elles soient compréhensibles en dehors de la Suisse alémanique.
Le service web Töggl promet la solution : il peut transcrire les dialectes suisses. Avant de cliquer tout de suite ailleurs pour l'essayer : Töggl n'est pas gratuit. Chaque minute de suisse allemand coûte un franc. Le haut-allemand et le français coûtent deux fois moins cher que le suisse-allemand. Töggl peut aussi parler le romanche, ce qui coûte le même prix que le suisse allemand. Pour le lancement, tu reçois un crédit de dix francs en cadeau.
Dans cet article, je me limiterai au suisse allemand. Nos sous-titreurs seront-ils bientôt rationalisés ?
Seules les personnes domiciliées en Suisse sont autorisées à s'inscrire. Les conditions générales stipulent que les clients ne peuvent pas traiter avec Töggl des données auxquelles s'applique le règlement général de l'UE sur la protection des données (RGPD). Töggl n'entre donc pas en ligne de compte pour les entreprises qui souhaitent rendre leurs contenus accessibles à des clients en Allemagne. Töggl s'adresse aux particuliers, aux journalistes et aux étudiants.
Avant la transcription, tu indiques de quelle langue il s'agit. Il n'est pas nécessaire d'indiquer un dialecte comme le bernois ou le valaisan, le dialecte suisse suffit.
Quelques indications sur la prononciation et la qualité de l'enregistrement sont également nécessaires. Les créateurs de Töggl soulignent que la qualité des résultats dépend fortement de ces facteurs et donnent des conseils pour l'enregistrement. Mais dans le cas d'une vidéo avec plusieurs personnes et scènes, il n'est pas toujours possible de répondre clairement à ces questions.
Le texte transcrit peut être retravaillé dans un éditeur. C'est d'ailleurs très nécessaire, comme tu vas le voir.
Lorsque la personne qui parle change, une nouvelle section commence avec un timecode, ce qui te permet d'entendre directement le passage. Un double-clic sur un passage de texte démarre également le son à l'endroit correspondant. La vitesse peut être sélectionnée très finement, de 0,1 fois à 3,5 fois.
Le texte édité peut être exporté sous forme de fichier texte ou Word et dans les formats de sous-titres les plus divers. Jusqu'ici, tout va bien.
Première tâche : Töggl doit sous-titrer cette vidéo de digitec. Le collègue Simon se glisse dans le rôle d'un reporter de la télévision locale et révèle sans pitié que même nos propres collaborateurs ne sont pas abonnés au compte Instagram de digitec.
De nombreuses personnes différentes apparaissent dans cette vidéo. La subdivision du texte en fonction des personnes qui parlent serait donc très utile. Cependant, la reconnaissance ne fonctionne pas de manière fiable. Dans le deuxième bloc, cinq personnes parlent, dont quatre peuvent être distinguées sans problème par le son de la voix. Töggl transforme tout cela en une seule bouillie de texte. Par exemple, l'un des locuteurs estime le nombre de followers à "deux millions", ce à quoi la femme à côté de lui répond "250 000". Töggl en fait le chiffre "2 250 000", ne tenant donc pas compte du fait que deux personnes différentes ont parlé avec des voix complètement différentes.
Plus tard, une personne parle en allemand standard, il y a donc même un changement de langue - et même là, aucun nouveau paragraphe n'est créé.
A la minute 2:37, Töggl attribue en revanche le discours de Simon à un nouveau locuteur au milieu de la phrase. La raison en est probablement que des applaudissements ont été enregistrés en arrière-plan. Le séquençage ne s'oriente clairement pas sur les voix, mais sur les bruits environnants.
La qualité de la transcription laisse une impression mitigée. Sans post-traitement, le texte est incompréhensible. Cela est dû d'une part à la mauvaise séparation des locuteurs. Une autre raison est qu'il y a quelques erreurs et surtout beaucoup de lacunes dans la reconnaissance vocale. Le logiciel omet tout simplement les mots et les parties de phrases qu'il ne comprend pas. Cela donne des phrases complètement dénuées de sens et complique également le post-traitement. Il serait utile que Töggl signale les passages incompréhensibles par quelque chose comme [[unverständlich]] pour les marquer.
Le matériel source n'est pas simple : le son contient des interjections, des phrases incomplètes, des expressions anglaises et différents scénarios d'enregistrement avec plus ou moins de bruits de fond. Simon parle cependant lentement et distinctement.
Ce qui me semble étrange, c'est que le mot "follower" est transcrit différemment à chaque fois qu'il le prononce :
Même chose pour digitec.ch : c'est tantôt digitec.ch, tantôt digi.ch et tantôt dete.ch.
Pour le test suivant, seules deux personnes sont impliquées et il n'y a pas de coupures. En revanche, la qualité de l'enregistrement est assez mauvaise. Pour les interviews, ce type d'audio devrait être très fréquent. Il s'agit ici d'un entretien avec un sculpteur de masques de Suisse centrale, que la collègue Caro a enregistré avec son smartphone.
L'entretien dure plus d'une heure, ce qui représenterait plus de 60 francs de frais de transcription. Radin comme je suis, je n'en ai téléchargé que douze minutes sur Töggl. Pour une impression approximative, c'est plus que suffisant.
Töggl transforme les deux personnes en huit. Les discours continus sont coupés en deux, parfois au milieu d'une phrase. Je ne sais pas à quoi cela est dû ; toute la conversation a eu lieu dans la même pièce.
Ce test révèle un nouveau problème, qui n'a cependant rien à voir avec Töggl - il s'agit d'une difficulté générale dans la transcription des entretiens.
Oui, ils se sont tout de suite déclarés prêts, donc, cela a tout de même représenté un certain effort financier et les locaux qui ne sont plus disponibles pour la mairie.
Cette phrase a été correctement transcrite par Töggl ; l'homme l'a dite mot pour mot. Mais elle est incompréhensible. Pratiquement personne ne s'exprime en français, et encore moins en dialecte. Lorsque nous parlons, nous ne faisons souvent que des demi-phrases, nous recommençons, nous mélangeons deux idées, etc. Sans parler des nombreux "hum" et des formulations maladroites. À l'oral, c'est tellement normal que nous ne le remarquons pas. Ce n'est que lors de la transcription littérale que cela dérange.
C'est plus prononcé dans les interviews que dans les clips vidéo. Les personnes interviewées parlent plus librement, elles n'ont pas de phrases préétablies. En règle générale, ce ne sont pas non plus des professionnels des médias. Les interviews orales doivent généralement être massivement remaniées afin d'être facilement compréhensibles et agréables à lire.
Voici un autre exemple. La transcription est proche de ce qui a été dit. Néanmoins, ces morceaux de texte seraient totalement incompréhensibles sans le son.
Töggl se débrouille-t-il mieux lorsqu'une seule personne parle ? Avec une bonne qualité d'enregistrement et des phrases complètes ? Pour le tester, j'utilise les deux premières minutes de la revue de Phil sur la PlayStation 5.
Dans ce cas également, le résultat est incompréhensible. Les erreurs ne peuvent pas être corrigées sans écouter le son. C'est décevant, car la tâche était ici nettement plus simple.
Cela signifie que, par malchance, vous ne pouvez pas encore juste où nous avons besoin, si vous voulez vos lunettes EPI, vous avez besoin pour cela, alors vous devez Plagen, mais aussi commander des données le gratuit mais qui n'est pas là et sinon vous ne pouvez pas les utiliser.
Tu l'as peut-être déjà remarqué plus haut avec le sculpteur de masques : Töggl écrit certes des mots en haut allemand, mais il ne traduit pas le dialecte. Les expressions suisses-allemandes ou les particularités grammaticales sont transcrites mot à mot, même si elles ne sont pas correctes en allemand standard. Le résultat est un pseudo-haut-allemand maladroit.
Suisse allemand : "[la variable Refresh Rate], qui fait qu'il n'y a pas de Bildstörige git".
Töggl : "[la variable Refresh Rate], qui fait qu'il n'y a pas de perturbations de l'image".
En français : "[la variable Refresh Rate], qui fait qu'il n'y a pas de perturbations de l'image".
Autre exemple :
Suisse allemand : "de quere Weg hiistelle".
Töggl : "mettre le Queren weg hinstellen".
Hochdeutsch : "mettre en travers".
Les textes transcrits automatiquement doivent presque toujours être retravaillés. Il en va de même pour les traductions automatiques. Celles-ci servent de version brute à laquelle on apporte les dernières touches à la main. Cela va plus vite que de traduire un texte entièrement à la main.
La question est donc la suivante : combien de temps vais-je gagner en retravaillant une transcription Töggl par rapport à une transcription sans aide logicielle ? Je transcris deux minutes de la revue de Phil avec et sans Töggl et je compare les temps.
Résultat : il me faut 20 minutes pour rendre le texte de Töggl à peu près compréhensible. Le texte est loin d'être bon pour autant. Il présente encore des formulations maladroites et quelques petites erreurs.
Pour les deux secondes minutes, entièrement transcrites manuellement, il me faut 17 minutes. Non seulement c'est plus rapide, mais la qualité du texte est aussi meilleure. Et ce, bien que cette partie de la revue soit plus difficile à transcrire. Elle entre davantage dans les détails, avec des choses difficiles à expliquer sur l'interface utilisateur. Il y a aussi des noms de jeux que je ne connaissais pas.
La raison principale est qu'il m'est plus facile d'écrire correctement une phrase dès le début que de rectifier une phrase erronée. Si j'entends d'abord une phrase et que je l'écris ensuite, je peux aussi la traduire correctement en allemand standard, ce qui augmente considérablement la qualité par rapport au texte de Töggl.
Une autre raison est que je n'arrive pas à me débrouiller avec l'éditeur au début. Un double clic sur le mot que je veux corriger poursuit l'enregistrement du son contre ma volonté, et je ne connais pas encore la combinaison de touches pour l'arrêter (Alt-K). J'essaie donc une deuxième fois avec les deux minutes suivantes. Résultat : 19 minutes de travail et le texte se lit mieux, même si Phil fait beaucoup de demi-phrases dans cette partie.
Néanmoins, il est clair que la transcription de Töggl ne permet pas de gagner du temps pour arriver à un texte final et impeccable. Si le texte ne doit pas être correct mais juste compréhensible, tu arriveras un peu plus vite au but avec le script automatique.
Cela semble contradictoire : je suis impressionné par ce que Töggl peut faire, mais je considère malgré tout que le service n'est guère utilisable.
La tâche que se sont fixée les créateurs de Töggl est extrêmement difficile. La reconnaissance vocale en soi est déjà un défi. Par exemple, la reconnaissance des limites des mots - lorsque nous parlons, nous ne faisons pas de pause entre les mots. Le fait que le suisse allemand n'ait ni une prononciation ni un vocabulaire uniformes complique encore la tâche. La traduction en allemand standard serait à nouveau une tâche en soi, que Töggl ne tente même pas. Töggl ne produit pas du haut allemand, mais du suisse allemand avec des mots écrits en haut allemand.
L'éditeur web pour la correction est bon. Malgré cela, tu ne gagnes pas ou peu de temps par rapport à une transcription manuelle. L'une des raisons est que Töggl omet tout simplement les mots et parties de phrases incompris. Il est donc difficile de s'orienter dans le texte.
Lors de mes tests, la qualité n'était pas beaucoup meilleure avec une bonne qualité d'enregistrement. Jamais le résultat n'a été si bon que j'aurais pu comprendre le texte sans le son.
Ce que je trouve vraiment décevant, c'est que Töggl ne parvient pas à distinguer les voix et produit une bouillie de texte incompréhensible lorsque, par exemple, un homme et une femme parlent.
Même si Töggl fonctionnait mieux : En raison des conditions générales, une utilisation commerciale n'est guère possible. Et pour une utilisation privée, le service est tout simplement trop cher.
Ceux qui sous-titrent les vidéos chez nous n'ont rien à craindre pour le moment.
Mon intéret pour l'informatique et l'écriture m'a mené relativement tôt (2000) au journalisme technique. Comment utiliser la technologie sans se faire soi-même utiliser m'intéresse. Dans mon temps libre, j'aime faire de la musique où je compense mon talent moyen avec une passion immense.