Los conflictos entre usuarios y los diccionarios de pronunciación de las síntesis de voz

Los usuarios con discapacidad visual severa habitualmente utilizan para acceder a sus dispositivos electrónicos un producto de apoyo conocido como lector de pantalla. Este tipo de software utiliza habitualmente una voz sintética para transmitir al usuario ciego la información del dispositivo.

Estas voces sintéticas o síntesis de voz suelen utilizar un diccionario de reglas y un conjunto fonético apropiado para el idioma del usuario. Incluso hay distintas versiones de un mismo idioma según la región como por ejemplo inglés de Estados unidos, británico o australiano así como español de España, de Méjico o español de Estados unidos.

Problemas de dicción y pronunciación

Algunos fabricantes de voces sintéticas utilizan locutores para grabar las voces originales y, tras un laborioso proceso de digitalización y análisis, se obtiene un cuadro fonético para crear los sonidos base para pronunciar los diversos contenidos textuales.

Algunas voces sintéticas son famosas por su calidad pero también las hay famosas por sus errores de dicción. Estos errores pueden originarse por un problema del locutor o por un error en el análisis previo de la información sonora. Por ejemplo, es conocido un error en una de las voces de la empresa Acapela group a la hora de pronunciar el monema type. En lugar de pronunciar tipe o táip se podía escuchar un silbido. Esto se debió a un error de asignación para el valor ype o type al que asignaron los fabricantes un tiempo concreto de la grabación en el que el locutor silbó para grabar posibles elementos para aportar emotividad a la síntesis de voz utilizando grabaciones de carcajadas, lloros, silbidos y demás.

Otro gran problema de pronunciación se origina en el diccionario de pronunciación que incluyen muchas voces. Este servicio es incluido por los fabricantes para aportar un poco de inteligencia a su síntesis de voz. El problema es que normalmente no hay un mecanismo para desactivar este diccionario de pronunciación interno y encontramos que algunos lectores de pantalla, al encontrar las siglas VB refiriéndose a Visual Basic la síntesis de voz pronuncia visto bueno. Otro problema conocido es el de signos de puntuación o caracteres no alfabéticos. Por ejemplo, es conocido el problema en OSX a la hora de pronunciar el carácter arroba (@), en lugar de pronunciar el carácter en castellano pronuncia algo parecido a alas.

Por último indicar un grave problema relacionado con la pronunciación de siglas, números romanos expresiones matemáticas imposibles o palabras en otros idiomas. Algunos ejemplos de estos problemas podemos encontrarlos a la hora de recorrer la agenda de contactos, por ejemplo, Carlos Vicente,al tener un nombre muy largo sólo se mostrará en la agenda como Carlos V y el lector de pantallas pronunciará Carlos quinto. Una versión de una voz sintética para Windows dejaba de funcionar si encontraba una expresión matemática imposible como era el ordinal femenino de 0 (0 ª). Podía pronunciar primera, segunda, tercera, … pero la expresión cerera no existe. Una voz sintética para Linux era incapaz de pronunciar, utilizando la voz en inglés o español, ciertas palabras en alemán u holandés donde se encontraban varias consonantes consecutivas sin ningún tipo de vocal. La síntesis de voz terminaba por marcar un error de ejecución y cerraba el lector de pantallas.

Soluciones a estos problemas

En un primer lugar el usuario puede transmitir al fabricante de la voz sintética y del lector de pantallas el problema. En el caso de no hacer caso como sucede con Apple, Freedom scientific o Acapela, podemos personalizar nuestro propio diccionario de pronunciación.

Los lectores de pantalla más avanzados suelen incluir una característica de personalización para el usuario para la corrección de errores de pronunciación. Así el nombre Jonathan podría pronunciarse correctamente como Yónathan.

Los lectores de pantallas más comunes para equipos de escritorio como JAWS, NVDA, Orca, VoiceOver o Dolphin Hal incluyen esta característica.

10 comentarios en “Los conflictos entre usuarios y los diccionarios de pronunciación de las síntesis de voz

  1. Jejeje, JAWS acaba de decir “Carlos quinto al ser un nombre muy largo se leerá como carlos quinto”…
    Y el tema de la interpretación de versiones como fechas eso es mítico ya, eso de usar la versión uno de enero del 24…

    Saludos.

    1. Hola,

      Con Siri y el dictado en OSX hay ciertos elementos, como algunas aplicaciones, en las que es necesario pronunciar correctamente en inglés. Por ejemplo Skype, Twitter, Facebook, etc. La aplicación que comentas la abro yo sin problema alguno. Es cierto que a veces me abre otra cosa o pide buscarla en Internet. Es cuestión de mejorar la pronunciación 🙂

  2. Sí, la verdad es que hay que llevar cuidado con eso, que como estés haciendo un trabajo y escribas algo que te haya “traducido” Jaws… puedes poner muchas barbaridades ^^’

  3. Hola:
    La mejor solución sería que se pueda desactivar el que trae por defecto, porque otra solución que estoy empleando es ir corrigiendo cada error a medida que aparece, el inconveniente es que si cambia un poco ya no lo reconoce, por ejemplo ONCE no es lo mismo que O.N.C.E., en cuanto hay puntos ya viene el lío, pero supongo que se irán mejorando los diccionarios, pero si vinieran en blanco mejor.
    Un saludo.

  4. Sí, estos problemas quitan inmersión y, además, son riesgosos si queremos generar contenido para poner por ejemplo en presentaciones.
    Es impresionante pero hasta los mismos fabricantes de lectores de pantalla corrigen diccionarios. Es suficiente ver los diccionarios que trae JAWS por defecto en los que se incluyen numerosas entradas para pasar por alto las cosas que dice Eloquence, como por ejemplo SSS para servicio social sustitutorio. Respecto a lo de las fechas que comentaba otro compañero, yo puse la interpretación de fechas en Ninguna, con lo que me leerá los datos tal como aparecen en pantalla pero con el beneficio que los contextualizo yo mismo.

    Fuera de los lectores de pantalla y más en relación con las voces en sí, el cambio del diccionario de una voz en Windows es difícil, si no imposible. En el caso de las voces de Acapela, por suerte, el mismo paquete Infovox trae una herramienta para administrar el léxico que, además, permite armarte varios diccionarios que se pueden conmutar según el contexto, aunque con la incomodidad de que sólo uno puede aplicarse a la vez a las voces fuera de las aplicaciones propias de Acapela como SpeechPad.
    En las voces de Cepstral, que es otras con las que lidié, el léxico es editable pero resulta difícil en tanto hay que hacerlo a mano y las instrucciones que hay en la página son algo confusas. Y en las de Loquendo ni modo.
    ¡Y cómo olvidarme de Espeak! Sí, el famoso motor por defecto de NVDA que también tiene para Windows una versión SAPI 5. Editar los diccionarios ahí es también bastante complicado ya que, aun la versión para Windows, sigue la filosofía de la versión original para GNU/Linux en muchos aspectos.

  5. eso es muy cierto, sobretodo en el lector de pantallas NVDA. podría decirse que el error más garrafal qe tiene este software está en su diccionario de pronunciaciones. por ejemplo, al agregar la sigla MB para que se pronuncie correctamente como megabaits, se cambia también la pronunciación de cualquier palabra que tenga las letras m y b de forma consecutiva. algunos ejemplos son: embarasada, =emegabaitsarasada, bombero, =bmegabaitsombero y así sucesivamente.

  6. Yo uso NVDA con la voz de Helena de Microsoft y no he encontrado la manera de hacer uso del diccionario, he probado muchas veces y no consigo que cambie nada. CC es Coalición Canaria me ponga como me ponga, y así con todo.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.