ES 202 211-2003
Procesamiento del Habla@ Transmisión y Aspectos de Calidad (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de funciones de front-end extendido; Algoritmos de compresión; Algoritmo de reconstrucción de voz de fondo (V1.1.1)

Estándar No.
ES 202 211-2003
Fecha de publicación
2003
Organización
ETSI - European Telecommunications Standards Institute
Ultima versión
ES 202 211-2003
Alcance
"El presente documento especifica algoritmos para la extracción de características de front-end extendidas @ su transmisión @ seguimiento y suavizado del tono de fondo @ y reconstrucción de voz de fondo que forman parte de un sistema para el reconocimiento de voz distribuido. La especificación cubre los siguientes componentes: a ) el algoritmo para la extracción de características de front-end para crear parámetros Mel-Cepstrum; b) el algoritmo para la extracción de parámetros adicionales @ a saber. @ frecuencia fundamental F0 y clase de sonorización; c) el algoritmo para comprimir estas características para proporcionar una transmisión de datos más baja velocidad; d) el formateo de estas características con protección contra errores en un flujo de bits para su transmisión; e) la decodificación del flujo de bits para generar las características de entrada en un receptor junto con los algoritmos asociados para la mitigación de errores de canal; f) el algoritmo para seguimiento y suavizado del tono en el extremo posterior para minimizar los errores de tono; g) el algoritmo para la reconstrucción del habla en el extremo posterior para sintetizar el habla inteligible. NOTA: Los componentes (a)@ (c)@ (d)@ y (e) ya están cubiertos por la ES 201 108 [1]. Además de estos (cuatro) componentes@, el presente documento cubre los componentes (b)@ (f)@ y (g) para proporcionar reconstrucción de voz de fondo y capacidades mejoradas de reconocimiento del lenguaje tonal. Si estas capacidades no son de interés@, el lector estará mejor atendido por la norma ES 201 108 [1] (sin ampliar). El presente documento no cubre los algoritmos de reconocimiento de voz "back-end" que hacen uso de las características frontales DSR recibidas. Los algoritmos se definen en forma matemática @ pseudocódigo @ o como diagramas de flujo. El software que implementa estos algoritmos escritos en el lenguaje de programación 'C' se proporcionará con la versión final publicada del presente documento. Las pruebas de conformidad no se especifican como parte de la norma. El rendimiento de reconocimiento de las implementaciones propietarias del estándar se puede comparar con los obtenidos utilizando el código 'C' de referencia en bases de datos de voz apropiadas. Se prevé que el flujo de bits DSR se utilizará como carga útil en otros protocolos de nivel superior cuando se implemente en sistemas específicos que admitan aplicaciones DSR. El estándar Extended Front-End (XFE) incorpora información tonal@ es decir, la frecuencia fundamental F0 y la clase de sonorización@ como parámetros adicionales. Esta información se puede utilizar para mejorar la precisión del reconocimiento de idiomas tonales, por ejemplo, mandarín, cantonés y tailandés. El estándar Extended Front-End (XFE) incorpora información de actividad de voz como parte de la información de la clase de voz. Esto se puede utilizar para la segmentación (o detección de punto final) de los datos de voz para mejorar el rendimiento del reconocimiento".

ES 202 211-2003 Historia

  • 2003 ES 202 211-2003 Procesamiento del Habla@ Transmisión y Aspectos de Calidad (STQ); Reconocimiento de voz distribuido; Algoritmo de extracción de funciones de front-end extendido; Algoritmos de compresión; Algoritmo de reconstrucción de voz de fondo (V1.1.1)



© 2023 Reservados todos los derechos.