La reconnaissance vocale peinent à comprendre les bègues

mathias

À l’heure où les assistants vocaux et les technologies de reconnaissance vocale font partie intégrante de la vie quotidienne, la conception inclusive doit influencer la fabrication de ces appareils et logiciels. Curbed se penche sur les défis que présentent les logiciels de reconnaissance vocale pour les quelque 3 millions de personnes qui bégaient aux États-Unis.

« Dès que vous faites une pause ou que vous vous arrêtez sur un mot, [Siri] cesse d’écouter », a déclaré à Curbed Marc Winski, un acteur vivant à Manhattan. « Quelque chose qui a été créé pour gagner du temps a créé plus de stress ».

La reconnaissance vocale faiblit lors de l’analyse des bégaiements, car les sons supplémentaires ne sont pas pris en compte dans sa formation. Frank Rudzicz, un informaticien de l’Université de Toronto qui étudie les technologies de la parole pour les personnes souffrant de troubles de la parole, a expliqué au journal que l’assistant vocal scanne votre discours à la recherche de phonèmes, les sons qui, lorsqu’ils sont combinés, forment des mots.

Lorsqu’ils sont prononcés, les mots « bat » et « rat » sont distincts pour les ordinateurs (et les personnes qui peuvent entendre) en raison des phonèmes, le son « B » et le son « R ». M. Rudzicz explique que les logiciels d’assistants vocaux tentent d’identifier les phonèmes dans votre discours, puis de construire un sens à partir de ces phonèmes. Les répétitions de ces sons ne sont pas prises en compte dans ce processus.

Selon M. Rudzicz, la technologie de l’assistant vocal est à environ « 90 % » de sa capacité à comprendre pleinement les personnes qui ne parlent pas couramment, et il pense que les 10 % restants seront le résultat d’une technologie capable d’individualiser les modèles vocaux pour chaque utilisateur. Selon M. Rudzicz, cette solution fonctionnerait pour les personnes dont la parole est atypique mais constante, comme les personnes atteintes de paralysie cérébrale, mais elle serait complexe pour les bègues, car le bégaiement est moins prévisible.

"Ce qui est si difficile avec le bégaiement, c'est qu'il est si variable. Avec les ordinateurs, vous ne pouvez pas dire 'je bégaie beaucoup aujourd'hui, pouvez-vous attendre une seconde ?'".

« Ce qui est si difficile avec le bégaiement, c’est qu’il est si variable », a déclaré à Curbed Joseph Klein, orthophoniste et professeur associé en sciences et troubles de la communication à l’Appalachian State University. « Avec les ordinateurs, vous ne pouvez pas dire ‘je bégaie beaucoup aujourd’hui, pouvez-vous attendre une seconde ?' ».

Les fabricants d’assistants vocaux, comme Google et Alexa, renouvellent leurs efforts.

Un porte-parole d’Amazon a déclaré à Curbed que la société « a récemment lancé Tap to Alexa qui permet la saisie sur Alexa pour les clients qui ont des difficultés à interagir avec Alexa avec leur voix. »

Google, quant à lui, préfère une approche basée sur les données. « Nous travaillons activement à l’amélioration de la qualité de notre reconnaissance vocale pour inclure davantage d’utilisateurs, y compris ceux qui ont des modèles de parole non standard ou qui parlent avec un accent », a déclaré à Curbed Johan Schalkwyk, vice-président et ingénieur en chef de la parole chez Google. « Il s’agit d’un défi de recherche à long terme auquel nous nous sommes engagés ».

Pour les bègues comme Pedro Pena III, ils préféreraient que ce progrès arrive plus tôt que tard. « J’adore la technologie ; elle est censée rendre nos vies beaucoup plus faciles », a déclaré à Curbed Pedro Pena III, animateur du podcast My Stuttering Life. « C’est merveilleux… si vous savez l’utiliser ».