ES 202 212-2003 Procesamiento del Habla@ Transmisión y Aspectos de Calidad (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de funciones de front-end avanzado y extendido; Algoritmos de compresión; Algoritmo de reconstrucción de voz de fondo (V1.1.1; contiene disquete) normas y especificaciones

Estándar No.: ES 202 212-2003
Fecha de publicación: 2003
Organización: ETSI - European Telecommunications Standards Institute
Estado: 2005-11
Remplazado por: ES 202 212-2005
Ultima versión: ES 202 212-2005

Alcance: "El presente documento especifica algoritmos para la extracción avanzada y extendida de funciones de front-end @ su transmisión @ seguimiento y suavizado del tono de back-end @ y la reconstrucción de voz de back-end que forman parte de un sistema para el reconocimiento de voz distribuido. La especificación cubre los siguientes componentes: a) el algoritmo para la extracción de características avanzadas de front-end para crear parámetros Mel-Cepstrum; b) el algoritmo para la extracción de parámetros adicionales @ a saber. @ frecuencia fundamental F0 y clase de sonorización; c) el algoritmo para comprimir estas características para proporcionar un nivel más bajo velocidad de transmisión de datos; d) el formateo de estas características con protección contra errores en un flujo de bits para su transmisión; e) la decodificación del flujo de bits para generar las características avanzadas de entrada en un receptor junto con los algoritmos asociados para la mitigación de errores de canal; f) el algoritmo para el seguimiento y suavizado del tono en el extremo posterior para minimizar los errores de tono; g) el algoritmo para la reconstrucción del habla en el extremo posterior para sintetizar el habla inteligible. NOTA: Los componentes a)@ c)@ d) y e) ya están cubiertos por la ES 202 050 [2]. Además de estos (cuatro) componentes @ el presente documento cubre los componentes b) @ f) y g) para proporcionar reconstrucción de voz de fondo y capacidades mejoradas de reconocimiento del lenguaje tonal. Si estas capacidades no son de interés@, el lector estará mejor atendido por la norma ES 202 050 [2] (sin ampliar). El presente documento no cubre los algoritmos de reconocimiento de voz "back-end" que hacen uso de las funciones avanzadas de front-end DSR recibidas. Los algoritmos se definen en forma matemática @ pseudocódigo @ o como diagramas de flujo. El software que implementa estos algoritmos escrito en el lenguaje de programación 'C' está contenido en el archivo ZIP es_202212v010101p0.zip que acompaña al presente documento. Las pruebas de conformidad no se especifican como parte de la norma. El rendimiento de reconocimiento de las implementaciones propietarias del estándar se puede comparar con los obtenidos utilizando el código 'C' de referencia en bases de datos de voz apropiadas. Se prevé que el flujo de bits DSR se utilizará como carga útil en otros protocolos de nivel superior cuando se implemente en sistemas específicos que admitan aplicaciones DSR. En particular@ para la transmisión de datos en paquetes@, se prevé que la definición de carga útil IETF AVT RTP DSR (ver bibliografía) se utilizará para transportar características DSR utilizando el formato de par de tramas descrito en la cláusula 7. El estándar DSR avanzado extendido está diseñado para su uso con transmisión discontinua y para soportar la transmisión de información de actividad de voz. El Anexo A describe un algoritmo VAD que se recomienda para su uso junto con el estándar Advanced DSR@; sin embargo, no forma parte del presente documento y los fabricantes pueden optar por utilizar un algoritmo VAD alternativo. El Front-End avanzado extendido (XAFE) incorpora información tonal@ es decir, la frecuencia fundamental F0 y la clase de sonorización@ como parámetros adicionales. Esta información se puede utilizar para mejorar la precisión del reconocimiento de idiomas tonales, por ejemplo, mandarín, cantonés y tailandés.

ES 202 212-2003 Historia

2005 ES 202 212-2005 Procesamiento del Habla@ Transmisión y Aspectos de Calidad (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de funciones de front-end avanzado y extendido; Algoritmos de compresión; Algoritmo de reconstrucción de voz de fondo (V1.1.2; incluye disquete)
2003 ES 202 212-2003 Procesamiento del Habla@ Transmisión y Aspectos de Calidad (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de funciones de front-end avanzado y extendido; Algoritmos de compresión; Algoritmo de reconstrucción de voz de fondo (V1.1.1; contiene disquete)

ES 202 212-2003Procesamiento del Habla@ Transmisión y Aspectos de Calidad (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de funciones de front-end avanzado y extendido; Algoritmos de compresión; Algoritmo de reconstrucción de voz de fondo (V1.1.1; contiene disquete)

ES 202 212-2003 Historia

ES 202 212-2003
Procesamiento del Habla@ Transmisión y Aspectos de Calidad (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de funciones de front-end avanzado y extendido; Algoritmos de compresión; Algoritmo de reconstrucción de voz de fondo (V1.1.1; contiene disquete)