Diferencia entre revisiones de «TTS y ASR»

De Asterisk Wiki
Ir a la navegación Ir a la búsqueda
Línea 31: Línea 31:
  
 
=== Festival ===
 
=== Festival ===
 +
 +
El sistema Festival TTS fue desarrollado originalmente por Alan W. Black, en la Universidad de Edimburgo, y distribuido con una licencia BSD como un programa Open Source. Prácticamente de los inicios de Asterisk, fue integrado ya que incorporaba las ventajas de un TTS sin coste ninguno, y desde entonces se ha convertido en el TTS de Asterisk por excelencia. Pero en contrapartida, dado que la calidad de los TTS, no tanto radica en sus algoritmos como también en las voces, quizá Festival sea de los menos sofisticados en este ámbito, aunque se han realizado varios intentos, con voces profesionales, la calidad de los resultados todavía deja mucho que desear.
 +
 +
En Asterisk esta basado en un módulo de tipo aplicación específica, '''app_festival.so''' como Festival realmente es una integración con Asterisk, los módulos hay que instalarlos aparte.
 +
 +
==== Instalación ====
 +
 +
Festival no esta instalado por defecto en nuestro sistema, y es muy probable que la aplicación Asterisk tampoco, así que seguramente necesitemos recompilar para introducirlo.
 +
 +
Para lo primero simplemente lanzamos:
 +
 +
{{Comando|sudo aptitude install festival}}
 +
 +
Por otro lado, hay que instalar el modulo, dentro del directorio que descargamos las fuentes de Asterisk (posiblemente /usr/src), procedemos a ejecutar make menuselect, se encuentra dentro de Applications -> Extended el módulo en si. Marcandolo, seguimos la guía de instalación de Asterisk de nuevo, para recompilar. Aunque simplemente podemos compilar con
 +
 +
{{Comando|make}}
 +
 +
Y luego copiar el modulo que nos interesa ('''<directorio_fuentes_asterisk/app/app_festival.so''') al directorio de módulos por defecto, por ejemplo:
 +
 +
{{Comando|cp /usr/src/asterisk-src/app/app_festival.so /usr/lib/asterisk/modules/}}
 +
 +
Y ya supuestamente quedaría cargado:
 +
 +
{{CLI|module show like app_festival.so<br>Module                        Description                              Use Count<br>
 +
app_festival.so                Simple Festival Interface                0<br>1 modules loaded}}
 +
 +
  
 
== Referencias ==
 
== Referencias ==
Línea 43: Línea 70:
 
== Enlaces Externos ==
 
== Enlaces Externos ==
  
* <ref>http://www1.digium.com/en/products/software/cepstral Cepstral para Asterisk</ref>, de [[Digium]] y [http://www.cepstral.com/ Cepstral LLC.]
+
* [http://www1.digium.com/en/products/software/cepstral Cepstral para Asterisk], de [[Digium]]  
 +
* [http://www.cepstral.com/ Cepstral LLC.], página oficial del Cepstral TTS
  
 
[[Categoría:General]]
 
[[Categoría:General]]

Revisión del 10:31 9 jun 2012

Format.png Formatear
Esta página necesita ser editada para cumplir los requisitos del wiki.
Puedes revisar todas las páginas sin suficiente formato en este enlace.
Alert.png To Do
Esta página necesita ser completada.
Puedes revisar todas las páginas por completar en este enlace.


Los sistemas Text-To-Speech (TTS) y Automatic Speech Recognition (ASR) están basados en la idea de crear una relación entre las personas y los ordenadores a través de medios de audio. Podrían considerarse dos los medios de entrada y salida más comunes en un entorno de telefonía más avanzada.

Logo Asterisk

Introducción

Es posible profundizar en la intención de estos conceptos, si tenemos en mente presente, la idea de crear un sistema de Interacción por Voz (IVR).

Partiendo por base que Automatic Speech Recognition, es la traducción de Reconocimiento de Voz Automático, recuerda al concepto que introducir en el sistema una secuencia de audio, que este la procese, y la transforme en un tipo de dato que sea más manejable por el mismo, como un mecanismo de entrada de información. Esta "traducción" suele realizarse con mecanismos bastante complejos, y por regla general suelen ser soluciones muy costosas a nivel económico, dado la complejidad que acarrean.

En contrapartida, Text to Speech, traducción de Texto a Voz, sería justo lo opuesto, pasando de un medio escrito, por regla general, más controlable por los ordenadores hoy en día dado que la mayoría de los entornos informáticos se encuentran basados en este medio, realizar una conversión a Audio, basándose en un sistema de voces pregrabadas, pronunciación y entonación capaz de vocalizar cualquier combinación de letras en forma de palabra, y también considerando otros aspectos más específicos como la fonética y acento de cada tipo de lenguaje. Existen soluciones libres, ya que la complejidad no es tanta, si lo equiparamos a los sistemas ASR, pero es cierto, que en este caso, al requerirse una voz humana real, los costes principalmente recaen sobre esta labor.

Text to Speech

El funcionamiento de los sistemas Text-To-Speech, radica en la idea, de recibir una cadena de Texto, considerar algunas variables adicionales como el idioma (cara a la fonética específica), y reproducir una pista de audio que suene tal y como una persona lo diría, intentando que sea de la forma más natural posible.

Para conseguir esta naturalidad, hay que considerar que aunque grabáramos un sonido para cada letra del abecedario tal como suena, hay algunos idiomas como el inglés que no son "fonéticamente directos", por tanto es necesario utilizar técnicas adicionales, como diccionarios de fonética, múltigrabaciones por cada letras (en función de las posibles variantes), etc. También intervienen los acentos ortográficos, que pueden hacer que varíe la entonación, y esto quiere decir, quizá hacer énfasis en una vocalización, u otros aspectos específicos de la fonética. Podríamos decir, que este, llamémosle, algoritmo, es el sistema que distingue la calidad de los diferentes sistemas de "Texto a Voz", también llamados Synthesis, (Síntesis de Voz).

Estos sistemas ya se utilizaban hace muchos años, de hecho existen registros de Bell Labs casi desde los inicios de la telefonía, aunque realmente la Síntesis de Voz basada en sistemas de Ordenador, surgió a partir de los años 60, y con la proliferación de la "telefonía 2.0" su avance ha sido acelerador hasta niveles bastante sofisticados.

En cuanto a lo que se refiere a TTS en Asterisk existen múltiples sistemas, libres, y con licencia, citamos los más conocidos:

  • Integración Festival, que viene incorporado dentro de Asterisk como un modulo específico
  • Cepstral , TTS Oficial de Digium es el TTS que recomienda Digium al ser Partner con Cepstral LLC
  • Google TTS, es un sistema On-Demand de Google, que realmente no cumple el propósito como tal, sino que originalmente se ofreció como servicio para ofrecer fonética en el sistema de Traducción de Google [1] para Google Chrome

Festival

El sistema Festival TTS fue desarrollado originalmente por Alan W. Black, en la Universidad de Edimburgo, y distribuido con una licencia BSD como un programa Open Source. Prácticamente de los inicios de Asterisk, fue integrado ya que incorporaba las ventajas de un TTS sin coste ninguno, y desde entonces se ha convertido en el TTS de Asterisk por excelencia. Pero en contrapartida, dado que la calidad de los TTS, no tanto radica en sus algoritmos como también en las voces, quizá Festival sea de los menos sofisticados en este ámbito, aunque se han realizado varios intentos, con voces profesionales, la calidad de los resultados todavía deja mucho que desear.

En Asterisk esta basado en un módulo de tipo aplicación específica, app_festival.so como Festival realmente es una integración con Asterisk, los módulos hay que instalarlos aparte.

Instalación

Festival no esta instalado por defecto en nuestro sistema, y es muy probable que la aplicación Asterisk tampoco, así que seguramente necesitemos recompilar para introducirlo.

Para lo primero simplemente lanzamos:

# sudo aptitude install festival


Por otro lado, hay que instalar el modulo, dentro del directorio que descargamos las fuentes de Asterisk (posiblemente /usr/src), procedemos a ejecutar make menuselect, se encuentra dentro de Applications -> Extended el módulo en si. Marcandolo, seguimos la guía de instalación de Asterisk de nuevo, para recompilar. Aunque simplemente podemos compilar con

# make


Y luego copiar el modulo que nos interesa (<directorio_fuentes_asterisk/app/app_festival.so) al directorio de módulos por defecto, por ejemplo:

# cp /usr/src/asterisk-src/app/app_festival.so /usr/lib/asterisk/modules/


Y ya supuestamente quedaría cargado:

CLI> module show like app_festival.so
Module Description Use Count
app_festival.so Simple Festival Interface 0
1 modules loaded



Referencias

  1. Google Translate Google Inc.

Véase también

Enlaces Externos