Diferencia entre revisiones de «TTS y ASR»

Revisión del 10:39 9 jun 2012

Formatear
Esta página necesita ser editada para cumplir los requisitos del wiki.
Puedes revisar todas las páginas sin suficiente formato en este enlace.

To Do
Esta página necesita ser completada.
Puedes revisar todas las páginas por completar en este enlace.

Los sistemas Text-To-Speech (TTS) y Automatic Speech Recognition (ASR) están basados en la idea de crear una relación entre las personas y los ordenadores a través de medios de audio. Podrían considerarse dos los medios de entrada y salida más comunes en un entorno de telefonía más avanzada.

Logo Asterisk

Introducción

Es posible profundizar en la intención de estos conceptos, si tenemos en mente presente, la idea de crear un sistema de Interacción por Voz (IVR).

Partiendo por base que Automatic Speech Recognition, es la traducción de Reconocimiento de Voz Automático, recuerda al concepto que introducir en el sistema una secuencia de audio, que este la procese, y la transforme en un tipo de dato que sea más manejable por el mismo, como un mecanismo de entrada de información. Esta "traducción" suele realizarse con mecanismos bastante complejos, y por regla general suelen ser soluciones muy costosas a nivel económico, dado la complejidad que acarrean.

En contrapartida, Text to Speech, traducción de Texto a Voz, sería justo lo opuesto, pasando de un medio escrito, por regla general, más controlable por los ordenadores hoy en día dado que la mayoría de los entornos informáticos se encuentran basados en este medio, realizar una conversión a Audio, basándose en un sistema de voces pregrabadas, pronunciación y entonación capaz de vocalizar cualquier combinación de letras en forma de palabra, y también considerando otros aspectos más específicos como la fonética y acento de cada tipo de lenguaje. Existen soluciones libres, ya que la complejidad no es tanta, si lo equiparamos a los sistemas ASR, pero es cierto, que en este caso, al requerirse una voz humana real, los costes principalmente recaen sobre esta labor.

Text to Speech

El funcionamiento de los sistemas Text-To-Speech, radica en la idea, de recibir una cadena de Texto, considerar algunas variables adicionales como el idioma (cara a la fonética específica), y reproducir una pista de audio que suene tal y como una persona lo diría, intentando que sea de la forma más natural posible.

Para conseguir esta naturalidad, hay que considerar que aunque grabáramos un sonido para cada letra del abecedario tal como suena, hay algunos idiomas como el inglés que no son "fonéticamente directos", por tanto es necesario utilizar técnicas adicionales, como diccionarios de fonética, múltigrabaciones por cada letras (en función de las posibles variantes), etc. También intervienen los acentos ortográficos, que pueden hacer que varíe la entonación, y esto quiere decir, quizá hacer énfasis en una vocalización, u otros aspectos específicos de la fonética. Podríamos decir, que este, llamémosle, algoritmo, es el sistema que distingue la calidad de los diferentes sistemas de "Texto a Voz", también llamados Synthesis, (Síntesis de Voz).

Estos sistemas ya se utilizaban hace muchos años, de hecho existen registros de Bell Labs casi desde los inicios de la telefonía, aunque realmente la Síntesis de Voz basada en sistemas de Ordenador, surgió a partir de los años 60, y con la proliferación de la "telefonía 2.0" su avance ha sido acelerador hasta niveles bastante sofisticados.

En cuanto a lo que se refiere a TTS en Asterisk existen múltiples sistemas, libres, y con licencia, citamos los más conocidos:

Integración Festival, que viene incorporado dentro de Asterisk como un modulo específico
Cepstral , TTS Oficial de Digium es el TTS que recomienda Digium al ser Partner con Cepstral LLC
Google TTS, es un sistema On-Demand de Google, que realmente no cumple el propósito como tal, sino que originalmente se ofreció como servicio para ofrecer fonética en el sistema de Traducción de Google ^[1] para Google Chrome

Festival

Referencias

↑ Google Translate Google Inc.

Véase también

IVR
AGI

Enlaces Externos

^[1], de Digium y Cepstral LLC.

↑ http://www1.digium.com/en/products/software/cepstral Cepstral para Asterisk

[1] Google Translate Google Inc.

[1]

[1]

@@ Línea 2: / Línea 2: @@
 {{ToDo}}
-Info de Introducción
+Los sistemas '''Text-To-Speech''' (TTS) y '''Automatic Speech Recognition''' (ASR) están basados en la idea de crear una relación entre las personas y los ordenadores a través de medios de audio. Podrían considerarse dos los medios de entrada y salida más comunes en un entorno de telefonía más avanzada.
 __TOC__
@@ Línea 8: / Línea 8: @@
 [[Image:logo_asterisk.png|thumb|Logo Asterisk|right|200px]]
-== Titulo 1==
+== Introducción ==
-Info del Titulo 1
+Es posible profundizar en la intención de estos conceptos, si tenemos en mente presente, la idea de crear un sistema de [[Dialplan Avanzado#Interactive Voice Response|Interacción por Voz (IVR)]].
-=== Subtitulo 1.1  ===
+Partiendo por base que Automatic Speech Recognition, es la traducción de Reconocimiento de Voz Automático, recuerda al concepto que introducir en el sistema una secuencia de audio, que este la procese, y la transforme en un tipo de dato que sea más manejable por el mismo, como un mecanismo de entrada de información. Esta "traducción" suele realizarse con mecanismos bastante complejos, y por regla general suelen ser soluciones muy costosas a nivel económico, dado la complejidad que acarrean.
-Info del Subtitulo 1.1
+En contrapartida, Text to Speech, traducción de Texto a Voz, sería justo lo opuesto, pasando de un medio escrito, por regla general, más controlable por los ordenadores hoy en día dado que la mayoría de los entornos informáticos se encuentran basados en este medio, realizar una conversión a Audio, basándose en un sistema de voces pregrabadas, pronunciación y entonación capaz de vocalizar cualquier combinación de letras en forma de palabra, y también considerando otros aspectos más específicos como la fonética y acento de cada tipo de lenguaje. Existen soluciones libres, ya que la complejidad no es tanta, si lo equiparamos a los sistemas ASR, pero es cierto, que en este caso, al requerirse una voz humana real, los costes principalmente recaen sobre esta labor.
-=== Subtitulo 1.2  ===
+== Text to Speech  ==
-Info del Subtitulo 1.2
+El funcionamiento de los sistemas Text-To-Speech, radica en la idea, de recibir una cadena de Texto, considerar algunas variables adicionales como el idioma (cara a la fonética específica), y reproducir una pista de audio que suene tal y como una persona lo diría, intentando que sea de la forma más natural posible.
-== Titulo 2 ==
+Para conseguir esta naturalidad, hay que considerar que aunque grabáramos un sonido para cada letra del abecedario tal como suena, hay algunos idiomas como el inglés que no son "fonéticamente directos", por tanto es necesario utilizar técnicas adicionales, como diccionarios de fonética, múltigrabaciones por cada letras (en función de las posibles variantes), etc. También intervienen los acentos ortográficos, que pueden hacer que varíe la entonación, y esto quiere decir, quizá hacer énfasis en una vocalización, u otros aspectos específicos de la fonética. Podríamos decir, que este, llamémosle, algoritmo, es el sistema que distingue la calidad de los diferentes sistemas de "Texto a Voz", también llamados [http://en.wikipedia.org/wiki/Speech_synthesis|Speech Synthesis], (Síntesis de Voz).
-Info del Titulo 2
+Estos sistemas ya se utilizaban hace muchos años, de hecho existen registros de Bell Labs casi desde los inicios de la telefonía, aunque realmente la Síntesis de Voz basada en sistemas de Ordenador, surgió a partir de los años 60, y con la proliferación de la "telefonía 2.0" su avance ha sido acelerador hasta niveles bastante sofisticados.
-=== Subtitulo 2.1  ===
+En cuanto a lo que se refiere a TTS en Asterisk existen múltiples sistemas, libres, y con licencia, citamos los más conocidos:
-Info del Subtitulo 2.1
+* Integración '''Festival''', que viene incorporado dentro de Asterisk como un modulo específico
+* '''Cepstral , TTS Oficial de [[Digium]]''' es el TTS que recomienda Digium al ser Partner con Cepstral LLC
+* '''Google TTS''', es un sistema On-Demand de Google, que realmente no cumple el propósito como tal, sino que originalmente se ofreció como servicio para ofrecer fonética en el sistema de Traducción de Google <ref>[http://translate.google.com/ Google Translate] Google Inc.</ref> para Google Chrome
-==== Subitutlo 2.1.1 ====
+=== Festival ===
-Info del Subtitulo 2.1.1 <ref>[http://www.10000horas.com 10000 Horas], Manuel Camargo (2010)</ref>
-=== Subtitulo 2.2  ===
-Info del Subtitulo 2.2
 == Referencias ==
@@ Línea 42: / Línea 38: @@
 == Véase también ==
-* [[Pagina Pruebas]]
+* [[Dialplan Avanzado#Interactive Voice Response|IVR]]
+* [[AGI]]
 == Enlaces Externos ==
-* [http://www.10000horas.com 10000 Horas] es un ejemplo de enlace externo
+* <ref>http://www1.digium.com/en/products/software/cepstral Cepstral para Asterisk</ref>, de [[Digium]] y [http://www.cepstral.com/ Cepstral LLC.]
 [[Categoría:General]]

Diferencia entre revisiones de «TTS y ASR»

Revisión del 10:39 9 jun 2012

Sumario

Introducción

Text to Speech

Festival

Referencias

Véase también

Enlaces Externos

Menú de navegación

Herramientas personales

Espacios de nombres

Variantes

Vistas

Más

Buscar

Navegación

Herramientas