Audio-isation d'articles de journaux pour ESH Médias

Introduction

Nous avons été approchés fin 2022 par le groupe ESH Médias, qui est le groupe éditorial de plusieurs journaux régionaux, pour réaliser une de leurs idées, qui pour le coup était plutôt novatrice : permettre aux consommateurs d’aussi écouter leurs articles, en plus de pouvoir les lire.

L’idée en soi est excellente, car elle permet aux usagers en déplacement d’écouter leurs articles, à la manière d’un podcast qui passerait à la radio.

Il n’en fallait plus plus pour que nous retroussions nos manches et réalisions avec le sourire l’un des projets plus fun sur lesquels j’ai travaillé cette année.

Le design

Le design de l’application Web devait être extrêmement simple et clair à utiliser, permettant aussi bien à des jeunes qu’à des personnes âgées de comprendre et d’utiliser le service en quelques clics.

Pour cela, la totalité de l’interface Web publique est rassemblée en 2 pages :

La sélection des articles
L’écoute de la playlist

La sélection des articles

La sélection des articles se présente sous la forme d’un empilement de cartes à trier. Un résumé audio se lance et l’utilisateur peut swiper vers la gauche ou la droite (à la Tinder pour les plus jeunes) ou cliquer sur les boutons de tri (pour les moins jeunes) pour ajouter un article à la playlist d’écoute ou pour l’ignorer. Ainsi, il ne suffit que d’une seule action par article pour compiler la playlist d’écoute.

L’écoute de la playlist

À présent que tous les articles du jour ont été triés et ajoutés à la playlist, il ne reste plus qu’à l’écouter. Cette seconde page se présente sous la forme d’un player façon Spotify ou Itunes et permet d’écouter la version audio des articles de journaux du jour. L’interface doit être minimaliste afin de permettre à l’utilisateur de porter son attention sur ce qu’il entend. Néanmoins, “minimaliste” ne signifiant pas “vide”, et les fonctionnalités usuelles telles que pause & play, accélérer & reculer, piste suivante & précédente de même que changer la vitesse de lecture, sont quand même présentes afin d’assurer le confort auditif du lecteur.

La transformation audio

La transformation d’articles écrits vers des enregistrements audios repose sur 2 éléments distincts :

Un back-office basé sur Symfony
l’API text-to-speech de Microsoft

Un back-office basé sur Symfony

Nous avons réalisé un back-office sur Symfony, qui se charge de récupérer tous les articles écrits par les différents journalistes du groupe, et qui permet aux administrateurs de choisir quels articles audio-iser.

Ensuite, ces mêmes administrateurs ont la possibilité de configurer les différentes voix, ainsi que de définir un dictionnaire de remplacement phonétique, permettant de remplacer des mots, noms et tournures de phrases qui seraient mal interprétés par le service de Microsoft, par une version phonétique plus proche de ce qui est attendu. Par exemple, si le service de Microsoft prononce Roger Federer en “Rogé Fédéré”, on peut forcer la voix en remplaçant le texte par “Rogeur Fédédère” juste avant de l’envoyer au service text-to-speech.

Enfin, parce que les articles peuvent être relativement longs et qu’il est pénible de l’écouter en entier encore et encore lorsque l’on veut juste changer une prononciation dans le dernier paragraphe tout en bas de l’article, nous avons aussi ajouté, en plus de l’écoute de l’entièreté de l’article, la possibilité de sélectionner uniquement une partie du texte à écouter, permettant de se concentrer sur une phrase ou un paragraphe en particulier.

Finalement, lorsque les administrateurs ont terminé de peaufiner leur article et que la version audio leur convient, deux versions finales en MP3 sont générées et stockées sur les serveurs : la version résumée, qui est jouée automatiquement sur l’écran de création de la playlist, et la version longue, à écouter paisiblement sur l’écran d’écoute de la playlist.

l’API text-to-speech de Microsoft

L’API text-to-speech de Microsoft fonctionne via l’envoi de documents en SSML, un balisage XML dédié à la transformation de texte en audio. Nous avons donc dû développer un service capable de prendre un article HTML en entrée, le nettoyer, le reformater, exclure certaines parties, détecter les différentes sections et générer un SSML avec uniquement les éléments intéressants et les bonnes voix associées aux bonnes sections.

Cela a été la partie la plus compliquée du projet, car les articles ne sont pas écrits pour être écoutés et il a donc été nécessaire de réaliser de nombreux aller-retour tout au long du projet pour affiner petit à petit les règles de nettoyage et de découpage.

Néanmoins, cela en valait clairement l’effort !

Conclusion

Ce projet a été fun et intéressant tout au long de sa réalisation, et je suis fier du résultat qui fonctionne à la perfection !

Vous pouvez retrouver ce service article-to-audio sur l’un des journaux de ESH Médias : Le Nouvelliste.