Publicação
Deep learning aplicado a classificação de patologias da voz
| Resumo: | A classificação de patologias relacionadas a voz utilizando conceitos de Deep Learning vem crescendo consideravelmente nos últimos anos. Bons resultados já foram obtidos para a classificação em fala sustentada com vogais, mas ainda existem poucos trabalhos relacionadas a classificação deste problema utilizando fala contínua. Por isso, é foco desta dissertação realizar a implementação dos principais modelos de Deep Learning para a classificação de patologias da voz em fala contínua, utilizando a frase alemã “Guten Morgen, wie geht es Ihnen?” da base de dados Saarbruecken Voice Database. São utilizados as patologias de disfonia, laringite e paralisia das cordas vocais, além da classe dos saudáveis, para análises multi classe e binária. Além disso, também é realizado um estudo prévio para a classificação com vogais nas mesmas patologias. O melhor resultado para as vogais é de 99% de exatidão para a implementação de um modelo LSTM com parâmetros Jitter, Shimmer e Autocorrelação, na classificação binária entre laringite e saudável. Para as frases, é realizado um estudo comparativo entre modelos de redes neuronais, convolucionais e recorrentes para os parâmetros MFCCs e Espectrogramas na escala Mel obtendo resultados de 76% de medida-F para disfonia x saudável, 68% de medida-F para laringite x saudável, 80% de medida-F para paralisia x saudável. Para classificação multi classe é obtido 59% e 40% de medida-F para 3 classes e 4 classes, respectivamente. |
|---|---|
| Autores principais: | Guedes, Victor |
| Assunto: | Long short-term memory Rede neuronais convolucional Redes neuronais artificias Transfer learning |
| Ano: | 2019 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Instituto Politécnico de Bragança |
| Idioma: | português |
| Origem: | Biblioteca Digital do IPB |
| Resumo: | A classificação de patologias relacionadas a voz utilizando conceitos de Deep Learning vem crescendo consideravelmente nos últimos anos. Bons resultados já foram obtidos para a classificação em fala sustentada com vogais, mas ainda existem poucos trabalhos relacionadas a classificação deste problema utilizando fala contínua. Por isso, é foco desta dissertação realizar a implementação dos principais modelos de Deep Learning para a classificação de patologias da voz em fala contínua, utilizando a frase alemã “Guten Morgen, wie geht es Ihnen?” da base de dados Saarbruecken Voice Database. São utilizados as patologias de disfonia, laringite e paralisia das cordas vocais, além da classe dos saudáveis, para análises multi classe e binária. Além disso, também é realizado um estudo prévio para a classificação com vogais nas mesmas patologias. O melhor resultado para as vogais é de 99% de exatidão para a implementação de um modelo LSTM com parâmetros Jitter, Shimmer e Autocorrelação, na classificação binária entre laringite e saudável. Para as frases, é realizado um estudo comparativo entre modelos de redes neuronais, convolucionais e recorrentes para os parâmetros MFCCs e Espectrogramas na escala Mel obtendo resultados de 76% de medida-F para disfonia x saudável, 68% de medida-F para laringite x saudável, 80% de medida-F para paralisia x saudável. Para classificação multi classe é obtido 59% e 40% de medida-F para 3 classes e 4 classes, respectivamente. |
|---|