Detalle de la tesis

Autores: Sad, Gonzalo Daniel.

Resumen: Desde hace tiempo el hombre ha intentado construir dispositivos que se comporten como él mismo, capaces de interactuar con su entorno de manera natural, lo cual ha motivado la investigación de la percepción/comunicación del propio humano. Es un hecho reconocido que ambas son de naturaleza multimodal, siendo el habla/audición y la visión los sentidos primarios. Esto ha motivado que una intensa actividad de investigación se focalice en el desarrollo de sistemas inteligentes con interfaces de audio y video. Dicha tarea, requiere del uso de sistemas de comunicación multimodal, y más específicamente audio-visual. Las diversas técnicas de fusión (o integración) de información multimodal propuestas en la literatura están fuertemente influenciadas por el dominio de aplicación. La selección de una estrategia de fusión para una tarea específica no es trivial y requiere conocimiento experto del dominio en que se encuadra la tarea considerada. El presente trabajo está orientado al desarrollo e implementación de algoritmos para la fusión de información audio-visual, inherente en la comunicación entre humanos, para tareas de reconocimiento audio-visual de habla en palabra aislada. Se presentan tres nuevos y diferentes esquemas, los cuales pueden utilizarse tanto para señales unimodales como multimodales. El primer esquema presentado, propone una nueva forma de combinación de la información audio-visual utilizando tres modelos ocultos de Markov (HMM: Hidden Markov Models), uno que representa a la parte acústica, otro a la visual y el último a la combinación de ambas. Además, se proponen nuevas formas de representación para las características audio-visuales que utilizan cada uno de los tres modelos, de manera tal de aprovechar el fenómeno de co-articulación. En el segundo esquema presentado, se proponen nuevos modelos a utilizar para el reconocimiento de habla. Se introduce el concepto de modelos complementarios y se lo aplica a los HMMs. Básicamente, la idea principal es utilizar una cascada de clasificadores para mejorar las tasas de reconocimiento que se obtienen con un solo clasificador. Este esquema se implementa para señales unimodales y luego se propone un sistema formado por la combinación de modelos complementarios y HMMs, para el caso en que la información a utilizar sea multimodal. Cada modalidad es procesada por separado y la decisión final se toma en base a un esquema de votación. En el tercer y último esquema propuesto, se desarrollan nuevos modelos audio-visuales basados en Random Forest y Wavelet. Al igual que para el esquema anterior, se proponen primero modelos unimodales. En una primera etapa, se propone realizar un análisis multi-resolución mediante la transformada Wavelet de los parámetros de entrada. Los coeficientes asociados con estas representaciones se usan como características para modelar la información de dicha modalidad, las cuales se utilizan como entrada para el clasificador Random Forest. Por último, se presentan diferentes algoritmos para fusionar dichos modelos unimodales, para poder manejar datos multimodales. La evaluación de estos tres esquemas propuestos, se lleva a cabo mediante experimentos utilizando cuatro bases de datos, dos de las cuales fueron compiladas por el autor. Para evaluar la robustez de los mismos, dichos experimentos se realizaron considerando condiciones ruidosas en el canal acústico. Los esquemas propuestos muestran resultados satisfactorios, mejorando las tasas de reconocimientos en comparación con los modelos tradicionales.

Grado académico: Universitario de posgrado/doctorado.

Titulo obtenido: Doctor en Informática.

Idioma: Español.

Area de conocimiento: Otras Ciencias de la Computación e Información.

Año: 2017