Archivo de la categoría: Herramientas software

Lee imágenes desde tu Mac con Tesseract de forma fácil y gratuita

A veces necesitamos manipular o acceder a la información escrita de una imagen o documento con imágenes incrustadas, esto es muy habitual por ejemplo para las personas ciegas o con baja visión. Para estas tareas se suele utilizar una herramienta software de reconocimiento óptico de caracteres o las siglas en inglés OCR.

Estas aplicaciones de OCR han sido, hasta hace poco, bastante caras de precio pero en la actualidad, y gracias al movimiento de software libre, disponemos de buenas alternativas libres y gratuitas. El ejemplo más conocido es Tesseract.

Este motor OCR fue originariamente desarrollado por Hewlett Packard para ser un software de pago, tras 10 años de explotación fue donado como código abierto a la comunidad. Actualmente Google se encarga de su mantenimiento y su nivel de precisión y soporte de varios idiomas lo convierten en una buena opción para competir con otros motores OCR de pago.

MacOS X, el sistema operativo de Apple para sus ordenadores de sobremesa y portátiles, dispone de una versión de Tesseract dentro de la comunidad de desarrollo. Esta versión puede ayudarnos en muchos momentos a acceder al contenido textual de una imagen o recurso visual de forma rápida y gratuita.

Instalación de Tesseract

Tesseract se distribuye de forma abierta con su código fuente por lo que cualquiera puede visitar la página web del proyecto Tesseract y bajar su código fuente y compilarlo en su máquina utilizando las diversas herramientas de desarrollo. Cuando hay herramientas de desarrollo involucradas en una tarea muchos usuarios piensan que va a ser algo imposible, no es del todo así en todos los casos.

Herramientas para desarrolladores que ayudan a todo el mundo

Las herramientas para desarrolladores, utilizadas de forma apropiada, pueden ayudar a cualquiera. Al igual que un cuchillo puede ser utilizado para defensa también nos puede ayudar a cortar el pan o una cuerda, sólo debemos preocuparnos por aprender a utilizarlo de forma apropiada y responsable.

La instalación de Tesseract puede ser muy compleja a menos que hagamos uso de una de estas herramientas para desarrolladores, hablamos de Homebrew. Brew o Homebrew es un gestor de paquetes que permite instalar rápidamente librerías y utilidades en MacOS X. La mayoría de estas utilidades y librerías están relacionadas con tareas de desarrollo pero otras son utilidades del sistema para el usuario, como es el caso de Tesseract.

La instalación de Homebrew y Tesseract se realizará a través del terminal.

Para instalar Homebrew simplemente abre el terminal, localizado en la carpeta Utilidades que está dentro de la carpeta de Aplicaciones.

Una vez abierta la ventana del terminal escribe la siguiente línea de comandos:


/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"

Una vez instalado Homebrew podemos comprobar si se ha instalado correctamente. Para ello escribimos en el terminal el siguiente comando:

brew --version

Atención: los comandos del terminal son sensibles a mayúsculas y minúsculas por lo que hay que tener cuidado en cómo se escribe cada comando.

Instalación rápida de Tesserac

Una vez instalado Homebrew en nuestro equipo podemos instalar Tesseract con soporte para más de 30 idiomas con un simple comando de terminal:

brew install tesseract --with-all-languages

Instalando todos los lenguajes nos aseguramos que tendremos un soporte completo para nuestro idioma.

Utilizando Tesseract desde la consola de comandos

Usar Tesseract desde la línea de comandos es tan sencillo como llamarlo indicando el fichero de imagen y el nombre del fichero donde queremos que guarde el resultado. Un ejemplo:

tesseract $HOME/Desktop/captura.png $HOME/Desktop/resultado

El anterior ejemplo utilizará el fichero de imagen captura.png, que puede ser una captura de pantalla guardada en nuestro escritorio, y guardará el resultado del proceso OCR en el fichero resultado.txt que se guardará en el escritorio. El problema de este comando es que intentará realizar el proceso primero en inglés. Podemos indicar el idioma simplemente con el parámetro -l. El ejemplo quedaría así si queremos realizar el proceso de OCR para el idioma español:

tesseract $HOME/Desktop/captura.png $HOME/Desktop/resultado -l spa

Desinstalar Tesseract

Si por alguna razón no queremos seguir teniendo a Tesseract el comando es tan simple como:

brew uninstall tesseract

Leer libros ePub en MacOS X con VoiceOver

El formato ePub ha sido adoptado por muchos editores y creadores de contenido como el formato más idóneo y más común. Por desgracia para las personas ciegas existen pocos lectores de documento que soporten este formato y, además presenten el contenido del documento de forma accesible para los productos de apoyo como lectores de pantalla o magnificadores. Esto provoca la aparición de una barrera de acceso a la cultura muy importante.

La compañía Apple también utiliza este formato para distribuir libros en su tienda de libros iBook store. En la plataforma iOS para iPhones e iPads se utiliza la aplicación iBooks para leer estos libros pero la versión de iBooks para MacOS X, en su versión 1.1 resulta incómoda, poco accesible y poco usable para personas ciegas.

Hasta que Apple no publique una actualización para iBooks que solucione estos problemas de accesibilidad nos vemos obligados a buscar alternativas.

Gracias a la Mac App store, la tienda de aplicaciones para MacOS X, esta búsqueda es rápida y sencilla. En la Mac App store podemos encontrar iText Express

La aplicación iText Express nos permite editar y leer diversos formatos de documento como RTF, RTFD, Word y además nos permite leer documentos en formato ePub.

Aunque su interfaz presenta algunas barreras de accesibilidad la lectura de documentos es completamente accesible para usuarios con discapacidad visual total o parcial pudiendose utilizar tanto VoiceOver como Zoom.

Actualmente iText Express se distribuye de forma gratuita.

Cambiar rápidamente de idioma para el dictado en OSX

La nueva función de dictado para OSX permite al usuario dictar textos en más de 20 idiomas. Su uso es muy sencillo al igual que su configuración.

El problema aparece cuando el usuario quiere dictar en más de un sólo idioma. Aunque el cambio de idioma es sencillo puede resultar engorroso y lento y lo digo por experiencia. Durante un día normal de uso de este servicio puedo cambiar esta configuración unas 8 veces.

Para facilitar la operación de cambio de idioma he realizado un script de AppleScript que nos permite conmutar el idioma de dictado entre español de España e inglés de Estados unidos.

Este script, junto a la posibilidad de ejecución de scripts por atajos de teclado de VoiceOver, habilitan un cambio rápido de este servicio para adaptarse a nuestras necesidades en todo momento.

Puedes descargar el script de cambio de idioma e instalarlo en tu sistema OSX Mountain Lion.

Requisitos del script

Para un correcto funcionamiento del script es necesario cumplir los siguientes requisitos:

  • Utilizar OSX Mountain Lion 10.8.2 o superior
  • Tener instaladas las voces de Alex y Diego en el sistema. Estas voces se utilizan para la notificación de cambio de idioma.
  • Utilizar OSX en español. El script no funcionará de forma apropiada en un entorno OSX configurado para otro idioma.
  • El script sólo cambia entre español de España e inglés de Estados unidos. Para modificar estos valores es necesario modificar el código fuente del script.
  • Este script se distribuye de forma gratuita. Si vas a modificarlo o distribuirlo respeta su autoría y recuerda mencionar la fuente original de donde lo obtuviste.

Script para identificar nivel de indentación con VoiceOver

A la hora de escribir textos para desarrollar aplicaciones en un lenguaje de programación se utilizan una serie de caracteres para indentar el texto separándolo una distancia determinada con respecto al margen izquierdo del documento. Esto se utiliza para estructurar el código del proyecto software y obtener una mejor visualización de las diversas estructuras y áreas del archivo de código. Algunos lenguajes de programación, como Python, utilizan estos caracteres de indentación para definir bucles o subrutinas por lo que la indentación pasa a tomar mayor importancia.

Para indentar un texto se suele utilizar el caracter de espacio o el caracter de tabulación. De esta forma se pueden definir distintos niveles de indentación de forma homogénea.

Los desarrolladores con discapacidad visual que utilizan un lector de pantallas no pueden acceder a esta información de forma habitual. Aunque algunos lectores de pantallas, como las últimas versiones de Jaws, incorporan funciones para identificar cambios en la indentación del texto la mayoría de estos productos de apoyo carecen de herramientas para gestionar este atributo del texto. VoiceOver para OSX carece de esta funcionalidad pero podemos incorporar algo que nos permita consultar el nivel de indentación de una línea de texto gracias a la ampliación de funcionalidad de VoiceOver mediante Apple script.

Script para verificar el nivel de indentación de una línea de texto

Tyflos Accessible Software ha desarrollado un script para VoiceOver el cual devuelve el número de indentación del último texto verbalizado por VoiceOver.

Esta primera versión del script sólo soporta caracteres de tabulación. En futuras versiones se aportará mayor soporte para otros caracteres de indentación.

Puedes descargar el archivo comprimido del script de verificación del nivel de indentación e instalarlo en tu sistema OSX.

Para utilizarlo es necesario activar el soporte de scripts de VoiceOver y añadir un comando para VoiceOver asociado a este script.

Sigue Programar a ciegas desde tu Dashboard en OSX

Ahora, si eres un usuario de Apple OSX, puedes seguir los artículos y actualizaciones de este blog a través del Dashboard de tu sistema.

Para poder disfrutar de esta nueva funcionalidad de Programar a ciegas sólo debes seguir las siguientes instrucciones:

  • Descarga el widget de Programar a ciegas. Es un archivo comprimido en Zip.
  • Descomprime el archivo ProgramarACiegasWidget.zip que encontrarás en tu carpeta de descargas. En algunos casos tu navegador web puede descomprimir automáticamente este tipo de archivos.
  • Ejecuta desde Finde el archivo que hay en el interior de la carpeta que se ha creado al descomprimir el archivo anterior. Aparecerá un diálogo preguntando si queremos instalar el Widget.

Desde este momento podrás consultar los últimos artículos y noticias de esta página simplemente abriendo el Dashboard de tu equipo Mac.

Convertidores de texto a voz

Las personas ciegas, desde hace unas décadas, han tomado el hábito de leer utilizando grabaciones de los textos de su interés. Para ello se han utilizado multitud de formatos mediante cintas magnetofónicas, las clásicas cassettes hasta llegar a la última tecnología de sonido digital utilizando CDs en formato Daisy.

El problema de leer un texto mediante una grabación de voz era que había que esperar a que un locutor, fuese de una organización de ciegos, una persona voluntaria o una colaboración con una institución, grabase el libro en audio y se editase para su correcta lectura. Esto provocaba que un ciego debiese esperar, al menos, 12 meses desde la aparición de un libro hasta la posibilidad, no asegurada, de leerlo en cinta.

En los últimos años la tecnología ha permitido la aparición de una alternativa más que fantástica, la utilización de la síntesis de voz digital, propia de equipos informáticos, para convertir textos digitales a grabaciones sonoras.

Al principio las voces eran demasiado metálicas y monótonas, por lo que este tipo de software era utilizado por personas que realmente lo necesitasen. En la actualidad la calidad de las voces ha mejorado tanto que es utilizado por multitud de personas y servicios de atención y comunicación sonora. Es un claro ejemplo de tecnología de uso exclusivo de personas con discapacidad que se ve empujada por el creciente interés de todos los públicos por su gran utilidad.

Las voces digitales dependen de un motor de síntesis de voz, capáz de comunicarse con la tarjeta de sonido del equipo informático para reproducir los diversos sonidos encadenados que formarán las frases habladas. Además, este motor de voz tendrá encuenta reglas lingüísticas y de entonación. Pero el motor de voz necesita de unos patrones sonoros o de pequeñas grabaciones de pronunciación que permitan definir el tono, el acento y la sonoridad final que tendrá la grabación, a este conjunto de datos se le conoce como una voz para un motor de síntesis.

En los sistemas operativos pertenecientes a la familia Microsoft Windows existen unas librerías para poder utilizar diversos motores de voz de forma sencilla para aumentar la compatibilidad entre software. Estas librerías son conocidas como SAPI (Speech Application Program Interface).

Puedes obtener el motor de síntesis de voz SAPI 5.1 de la página de descarga de SAPI 5.1 aunque en las versiones actuales de Microsoft Windows, más concretamente a partir de la versión de Windows XP, SAPI 5 ya viene incluida en el sistema.

En idioma castellano hay multitud de voces gratuítas para el formato SAPI 4. Para Microsoft Windows XP/2003/Vista (últimas versiones de este sistema operativo) se utiliza, de serie, el formato SAPI 5.1. Hay pocas voces gratuítas para este formato aunque podemos utilizar la voz de Isabel para SAPI 5.1. Hay compañías, como Loquendo o Nuance, que se dedican a crear voces de calidad para terminales de atención al cliente, puntos de venta automatizados o sistemas de megafonía para estaciones de transporte y aeropuertos.

En los equipos con MacOS X, el sistema operativo de Apple para sus equipos portátiles y de sobremesa, existe integrado en el sistema un motor de voz genérico que puede ser utilizado por diversos programas y servicios del sistema. Actualmente se incluyen varias voces con diversos acentos y efectos sonoros aunque el problema es que todas las voces están en inglés. Se pueden adquirir voces para otros idiomas.

En GNU-Linux tenemos varios motores o librerías de síntesis de voz como Festival, Mbrola o una versión para GNU-Linux de Eloquence. Todos estos motores de voz se utilizan en el sistema a través de un interfazque comunique las aplicaciones del sistema con el motor de voz, un ejemplo de este tipo de interfaz es Gnome-speech.

En un equipo informático con un motor de síntesis de voz instalado, con sus correspondientes voces, podemos utilizar algunos programas especializados en convertir textos digitales a ficheros de audio. Son los programas conocidos como conversores de texto a voz. Estos programas nos permiten convertir largos textos en formato Word, TXT, RTF o PDF en un conjunto de ficheros de sonido en formato MP3 que podemos escuchar con nuestro reproductor portatil de música mientras caminamos o utilizamos el transporte público.

Una opción sencilla y gratuíta es el programa DSpeech, que funciona tanto con SAPI 4.0 y SAPI 5.1 permitiendo convertir textos a formato WAV o MP3. Puedes obtener DSpeech en castellano y valenciano de la web de Tifloinforma. Su instalación es muy sencilla ya que sólo debes descomprimir el fichero comprimido en la carpeta donde quieras guardar DSpeech y ejecutar el archivo .EXE que hay en su interior.

Para MacOS X existe el programa Ghost reader. Este programa nos permite convertir cualquier documento de texto que pueda abrir la vista previa en un fichero mp3 o m4b utilizando las voces del sistema o unas voces compatibles con este programa e incluir el resultado de la conversión directamente en nuestra librería de iTunes para poder leer el documento en nuestro iPod, iPhone o dispositivo móvil de Apple.