Voltar

Ciência da Computação promove defesa no dia 20

O orientador foi Carlos Alexandre Barros de Mello

O Programa de Pós-Graduação em Ciência da Computação promove, no dia 20 deste mês, às 14h, a defesa de dissertação de mestrado “A Convolutional Neural Network Approach for Speech Quality Assessment”, do aluno Renato Quirino de Albuquerque. A apresentação será às 14h, no Centro de Informática, Sala A014. O orientador foi Carlos Alexandre Barros de Mello.

A banca examinadora é formada pelos professores Adriano Lorena Inacio de Oliveira (UFPE/Centro de Informática), Francisco Madeiro Bernardino Junior (UPE/Escola Politécnica de Pernambuco) e Carlos Alexandre Barros de Mello (UFPE/Centro de Informática).

Resumo

Como uma das características humanas mais importantes, a fala pode ser considerada um subsistema de uma das formas utilizadas na comunicação. O processo de comunicação oral envolvido é concluído quando ocorre a compreensão da fala pelo ouvinte. Como matéria de estudo, o processo de compreensão da fala é realizado por um sistema complexo que ocorre primariamente no ouvido e posteriormente no cérebro. Um aspecto importante da compreensão da fala pode ser definido como qualidade. Esta pode ser entendida como a fidelidade do sinal de fala em relação à sua versão original (ou idealizada) quando uma comparação é permitida. O aspecto da qualidade é uma questão subjetiva e, por isso, é bastante difícil de medir e predizer. A maneira mais comum de medir a qualidade de fala, nos sistemas de processamento de fala, é realizada com testes de escuta subjetiva. Nesses testes, indivíduos avaliam a qualidade das amostras de fala associando-as a índices de qualidade. Embora o uso comum de tais testes, há detalhes preocupantes relacionados à sua aplicação, como tempo e custo. Os problemas relacionados à aplicabilidade de testes de escuta subjetiva naturalmente exigem esforços no desenvolvimento de abordagens automáticas. Embora o aspecto da qualidade de fala possa ser considerado uma métrica altamente subjetiva, existem maneiras de mensurá-lo por meio de métodos instrumentais. Estas são ferramentas dedicadas a aproximar automaticamente a qualidade subjetiva de uma pontuação de opinião média. Em relação aos dados utilizados, os modelos de avaliação de qualidade de fala são tipicamente divididos em dois grupos: as metodologias que utilizam apenas a amostra de fala a ser avaliada (non-reference) e as que utilizam as versões degradada e de referência da amostra de fala (full-reference). Infelizmente, para a maioria das aplicações de tempo real, praticamente não é possível obter a amostra de fala original, sendo necessário realizar uma avaliação apenas na versão degradada. Desde o nascimento da área de avaliação da qualidade de fala, surgiram metodologias dedicadas ao tratamento de um número crescente de distorções. Alguns modelos, empregando modelagem psicoacústica, se mostraram eficazes, tornando-se recomendações internacionais, tais como PESQ, POLQA e P.563. Outros modelos empregaram técnicas mais semelhantes ao processo de aprendizado humano, como técnicas de aprendizado de máquina, para modelar os estágios da percepção de qualidade. Mais recentemente, o avanço na área de aprendizado profundo conduziu o desenvolvimento de abordagens aplicadas a avaliação de qualidade de fala utilizando modelos de Redes Neurais Profundas (DNN). Nesta dissertação, é apresentado um modelo de rede neural convolucional para avaliação de qualidade de fala (CNN-SQA). Esta é uma metodologia non-reference que aplica camadas convolucionais como extratores de características para uma representação visual da fala. Seu desempenho é avaliado comparando-o com as metodologias PESQ, ViSQOL e P.563. Os experimentos foram realizados em bancos de dados disponíveis publicamente, assim como em um novo banco de dados criado para avaliar o modelo no contexto de ruído de fundo. Os resultados são analisados por meio de medidas de correlação e descrições estatísticas.

Data da última modificação: 17/02/2020, 13:07