Diferencia entre revisiones de «TTS y ASR»

De Asterisk Wiki
Ir a la navegación Ir a la búsqueda
(Página creada con «{{Format}} {{ToDo}} Info de Introducción __TOC__ thumb|Logo Asterisk|right|200px == Titulo 1== Info del Titulo 1 === Subtitulo 1.1 ===...»)
 
Línea 2: Línea 2:
 
{{ToDo}}
 
{{ToDo}}
  
Info de Introducción
+
Los sistemas '''Text-To-Speech''' (TTS) y '''Automatic Speech Recognition''' (ASR) están basados en la idea de crear una relación entre las personas y los ordenadores a través de medios de audio. Podrían considerarse dos los medios de entrada y salida más comunes en un entorno de telefonía más avanzada.
  
 
__TOC__  
 
__TOC__  
Línea 8: Línea 8:
 
[[Image:logo_asterisk.png|thumb|Logo Asterisk|right|200px]]  
 
[[Image:logo_asterisk.png|thumb|Logo Asterisk|right|200px]]  
  
== Titulo 1==
+
== Introducción ==
  
Info del Titulo 1
+
Es posible profundizar en la intención de estos conceptos, si tenemos en mente presente, la idea de crear un sistema de [[Dialplan Avanzado#Interactive Voice Response|Interacción por Voz (IVR)]].
  
=== Subtitulo 1.1  ===
+
Partiendo por base que Automatic Speech Recognition, es la traducción de Reconocimiento de Voz Automático, recuerda al concepto que introducir en el sistema una secuencia de audio, que este la procese, y la transforme en un tipo de dato que sea más manejable por el mismo, como un mecanismo de entrada de información. Esta "traducción" suele realizarse con mecanismos bastante complejos, y por regla general suelen ser soluciones muy costosas a nivel económico, dado la complejidad que acarrean.
  
Info del Subtitulo 1.1
+
En contrapartida, Text to Speech, traducción de Texto a Voz, sería justo lo opuesto, pasando de un medio escrito, por regla general, más controlable por los ordenadores hoy en día dado que la mayoría de los entornos informáticos se encuentran basados en este medio, realizar una conversión a Audio, basándose en un sistema de voces pregrabadas, pronunciación y entonación capaz de vocalizar cualquier combinación de letras en forma de palabra, y también considerando otros aspectos más específicos como la fonética y acento de cada tipo de lenguaje. Existen soluciones libres, ya que la complejidad no es tanta, si lo equiparamos a los sistemas ASR, pero es cierto, que en este caso, al requerirse una voz humana real, los costes principalmente recaen sobre esta labor.
  
=== Subtitulo 1.2 ===
+
== Text to Speech ==
  
Info del Subtitulo 1.2
+
El funcionamiento de los sistemas Text-To-Speech, radica en la idea, de recibir una cadena de Texto, considerar algunas variables adicionales como el idioma (cara a la fonética específica), y reproducir una pista de audio que suene tal y como una persona lo diría, intentando que sea de la forma más natural posible.
  
== Titulo 2 ==
+
Para conseguir esta naturalidad, hay que considerar que aunque grabáramos un sonido para cada letra del abecedario tal como suena, hay algunos idiomas como el inglés que no son "fonéticamente directos", por tanto es necesario utilizar técnicas adicionales, como diccionarios de fonética, múltigrabaciones por cada letras (en función de las posibles variantes), etc. También intervienen los acentos ortográficos, que pueden hacer que varíe la entonación, y esto quiere decir, quizá hacer énfasis en una vocalización, u otros aspectos específicos de la fonética. Podríamos decir, que este, llamémosle, algoritmo, es el sistema que distingue la calidad de los diferentes sistemas de "Texto a Voz", también llamados [http://en.wikipedia.org/wiki/Speech_synthesis|Speech Synthesis], (Síntesis de Voz).
  
Info del Titulo 2
+
Estos sistemas ya se utilizaban hace muchos años, de hecho existen registros de Bell Labs casi desde los inicios de la telefonía, aunque realmente la Síntesis de Voz basada en sistemas de Ordenador, surgió a partir de los años 60, y con la proliferación de la "telefonía 2.0" su avance ha sido acelerador hasta niveles bastante sofisticados.
  
=== Subtitulo 2.1  ===
+
En cuanto a lo que se refiere a TTS en Asterisk existen múltiples sistemas, libres, y con licencia, citamos los más conocidos:
  
Info del Subtitulo 2.1
+
* Integración '''Festival''', que viene incorporado dentro de Asterisk como un modulo específico
 +
* '''Cepstral , TTS Oficial de [[Digium]]''' es el TTS que recomienda Digium al ser Partner con Cepstral LLC
 +
* '''Google TTS''', es un sistema On-Demand de Google, que realmente no cumple el propósito como tal, sino que originalmente se ofreció como servicio para ofrecer fonética en el sistema de Traducción de Google <ref>[http://translate.google.com/ Google Translate] Google Inc.</ref> para Google Chrome
  
==== Subitutlo 2.1.1 ====
+
=== Festival ===
 
 
Info del Subtitulo 2.1.1 <ref>[http://www.10000horas.com 10000 Horas], Manuel Camargo (2010)</ref>
 
 
 
=== Subtitulo 2.2  ===
 
 
 
Info del Subtitulo 2.2
 
  
 
== Referencias ==
 
== Referencias ==
Línea 42: Línea 38:
 
== Véase también ==
 
== Véase también ==
  
* [[Pagina Pruebas]]
+
* [[Dialplan Avanzado#Interactive Voice Response|IVR]]
 +
* [[AGI]]
  
 
== Enlaces Externos ==
 
== Enlaces Externos ==
  
* [http://www.10000horas.com 10000 Horas] es un ejemplo de enlace externo
+
* <ref>http://www1.digium.com/en/products/software/cepstral Cepstral para Asterisk</ref>, de [[Digium]] y [http://www.cepstral.com/ Cepstral LLC.]
  
 
[[Categoría:General]]
 
[[Categoría:General]]

Revisión del 09:39 9 jun 2012

Format.png Formatear
Esta página necesita ser editada para cumplir los requisitos del wiki.
Puedes revisar todas las páginas sin suficiente formato en este enlace.
Alert.png To Do
Esta página necesita ser completada.
Puedes revisar todas las páginas por completar en este enlace.


Los sistemas Text-To-Speech (TTS) y Automatic Speech Recognition (ASR) están basados en la idea de crear una relación entre las personas y los ordenadores a través de medios de audio. Podrían considerarse dos los medios de entrada y salida más comunes en un entorno de telefonía más avanzada.

Logo Asterisk

Introducción

Es posible profundizar en la intención de estos conceptos, si tenemos en mente presente, la idea de crear un sistema de Interacción por Voz (IVR).

Partiendo por base que Automatic Speech Recognition, es la traducción de Reconocimiento de Voz Automático, recuerda al concepto que introducir en el sistema una secuencia de audio, que este la procese, y la transforme en un tipo de dato que sea más manejable por el mismo, como un mecanismo de entrada de información. Esta "traducción" suele realizarse con mecanismos bastante complejos, y por regla general suelen ser soluciones muy costosas a nivel económico, dado la complejidad que acarrean.

En contrapartida, Text to Speech, traducción de Texto a Voz, sería justo lo opuesto, pasando de un medio escrito, por regla general, más controlable por los ordenadores hoy en día dado que la mayoría de los entornos informáticos se encuentran basados en este medio, realizar una conversión a Audio, basándose en un sistema de voces pregrabadas, pronunciación y entonación capaz de vocalizar cualquier combinación de letras en forma de palabra, y también considerando otros aspectos más específicos como la fonética y acento de cada tipo de lenguaje. Existen soluciones libres, ya que la complejidad no es tanta, si lo equiparamos a los sistemas ASR, pero es cierto, que en este caso, al requerirse una voz humana real, los costes principalmente recaen sobre esta labor.

Text to Speech

El funcionamiento de los sistemas Text-To-Speech, radica en la idea, de recibir una cadena de Texto, considerar algunas variables adicionales como el idioma (cara a la fonética específica), y reproducir una pista de audio que suene tal y como una persona lo diría, intentando que sea de la forma más natural posible.

Para conseguir esta naturalidad, hay que considerar que aunque grabáramos un sonido para cada letra del abecedario tal como suena, hay algunos idiomas como el inglés que no son "fonéticamente directos", por tanto es necesario utilizar técnicas adicionales, como diccionarios de fonética, múltigrabaciones por cada letras (en función de las posibles variantes), etc. También intervienen los acentos ortográficos, que pueden hacer que varíe la entonación, y esto quiere decir, quizá hacer énfasis en una vocalización, u otros aspectos específicos de la fonética. Podríamos decir, que este, llamémosle, algoritmo, es el sistema que distingue la calidad de los diferentes sistemas de "Texto a Voz", también llamados Synthesis, (Síntesis de Voz).

Estos sistemas ya se utilizaban hace muchos años, de hecho existen registros de Bell Labs casi desde los inicios de la telefonía, aunque realmente la Síntesis de Voz basada en sistemas de Ordenador, surgió a partir de los años 60, y con la proliferación de la "telefonía 2.0" su avance ha sido acelerador hasta niveles bastante sofisticados.

En cuanto a lo que se refiere a TTS en Asterisk existen múltiples sistemas, libres, y con licencia, citamos los más conocidos:

  • Integración Festival, que viene incorporado dentro de Asterisk como un modulo específico
  • Cepstral , TTS Oficial de Digium es el TTS que recomienda Digium al ser Partner con Cepstral LLC
  • Google TTS, es un sistema On-Demand de Google, que realmente no cumple el propósito como tal, sino que originalmente se ofreció como servicio para ofrecer fonética en el sistema de Traducción de Google [1] para Google Chrome

Festival

Referencias

  1. Google Translate Google Inc.

Véase también

Enlaces Externos

  • http://www1.digium.com/en/products/software/cepstral Cepstral para Asterisk