Publicação

Speech emotion recognition models from multisourced data and application to depression and dysarthria

Detalhes bibliográficos
Resumo:	Cerca de 15.5% da população mundial apresemta algum tipo de problema do foro mental, com este cenário a aumentar, particularmente depois da pandemia causada pela COVID-19. Uma vez que problemas de saúde mental afetam várias populações e os transtornos de depressão e ansiedade estão a tornar-se cada vez mais prevalecentes, o estudo das emoções torna-se mais necessário. Por conseguinte, a deteção precoce e consequente tratamento da depressão são aspetos cruciais. Uma das formas de detetar emoções é através da fala. A fala é um método de comunicação vital, esta não só transmite uma mensagem semântica como também detalhes sobre o estado emocional do orador, através da sua voz. É razoavelmente simples de recolher e processar em tempo real, através de um sensor auditivo como um microfone. Aspeto este que é crucial ao considerar qual a modalidade a utilizar para o reconhecimento das emoções. Um sistema capaz de registar áudio e analisar emoções poderia permitir o diagnóstico automático de depressão em doentes, ajudando os médicos a apoiar as suas decisões e evitar erros críticos, permitindo cuidados mentais pró-ativos. Posto isto, podemos dizer que esta dissertação tem dois objetivos principais. Um deles é ser capaz de reconhecer as emoções através dos sinais áudio da fala com base nas suas características acústicas e com a ajuda de algoritmos de machine learning. O outro é utilizar essa capacidade para avaliar as diferenças emocionais entre grupos de pessoas com e sem depressão. Se conhecermos o perfil emocional das pessoas com depressão e as suas diferenças em comparação com um grupo saudável, tendo um sistema capaz de reconhecer as emoções seria possível ajudar os clínicos a diagnosticar depressão. Uma vez que estávamos a trabalhar com características relacionadas com a fala, acrescentámos um objetivo paralelo de detetar doentes com perturbações da fala, a partir de áudios dos mesmos. O primeiro passo foi implementar o reconhecimento de emoções: ‘raiva’; ‘nojo’; ‘medo’; ‘felicidade’; ‘neutra’; ‘tristeza’; ‘surpresa’. Os métodos utilizados basearam-se no pré-processamento dos áudios e em técnicas de aumento do número de dados existentes. No pré-processamento realizado foi considerada a remoção de partes de silêncio no início e fim dos sinais e a sua filtragem. As características extraídas dos áudios foram as seguintes: Zero Crossing Rare, Chroma, Mel Frequency Cepstral Coefficents, Root Mean Square, Mean Mel Spectogram, Mean Fundamental Frequency, Mean Fundamental Frequency variability e Energia. O classificador utilizado foi uma rede neural convolocional que incluí camadas unidimensionais convolutivas combinadas com camadas de dropout, max-polling, e activation. Realizámos o reconhecimento das emoções nos conjuntos de dados: RAVDESS (7 emoções), TESS (7 emoções), CREMA-D (6 emoções) e SAVEE (7 emoções). Para isso, extraímos as características dos áudios mencionadas no parágrafo anterior e comparámos a utilização de técnicas de pré-processamento e de aumento do número de dados no desempenho do nosso modelo. O reconhecimento de emoções pode ser categorizado em dependente do orador (SD) ou independented do orador (SI). Nos conjuntos de dados de treino e teste dos estudos SD, existem amostras de áudio do mesmo ator expressando várias emoções. Por outro lado, os estudos SI usam dados de treino e teste compostos por amostras de áudio de diferentes atores. Para uma abordagem dependente do orador, obtivemos resultados de acurácia de 65.81%, 99.24%, 50.05%, 69.55%, e 62.34% para RAVDESS, TESS, CREMA-D, SAVEE, e para o conjunto de dados combinados, respetivamente. A partir dos resultados, concluímos que o pré-processamento melhora a acurácia média quando temos menos amostras de dados. No entanto, com mais amostras de dados, o préprocessamento não influencia significativamente o desempenho porque o modelo tem mais dados com que aprender. De um modo geral, o aumento do número de dados é uma boa técnica para um sistema dependente do orador. O pré-processamento também pode ser utilizado quando o conjunto de dados é pequeno. Além disso, TESS e SAVEE têm melhores resultados que os restantes, o que indica que o modelo pode aprender melhor com um menor número de oradores. Portanto, se quisermos monitorizar o estado emocional de uma única pessoa ao longo do tempo, podemos criar um modelo usando amostras de discurso rotuladas emocionalmente dessa pessoa e depois usá-lo para prever as suas emoções no futuro. Para uma abordagem independente do orador, obtivemos resultados de acurácia de 41.29%, 30.51%, 45.10%, 41.54%, e 44.05% para RAVDESS, TESS, CREMA-D, SAVEE, e para o conjunto de dados combinados, respetivamente. Nesta abordagem, o aumento do número de dados e o pré-processamento não parecem ter tanta influência, como acontece na abordagem dependente do orador. No entanto, é útil utilizar estas técnicas quando o tamanho do conjunto de dados é pequeno. Além disso, vemos que tendo menos oradores é pior nesta abordagem. TESS tem apenas dois oradores, e o modelo irá sobreajustar-se ao orador utilizado no treino numa abordagem independente do orador. Assim, quando queremos prever emoções em oradores que não estão presentes no treino, devemos utilizar dados no treino de muitos oradores diferentes. Outras conclusões relacionadas com o reconhecimento de emoções pela voz são que a maioria das classificações erradas ocorrem entre emoções com valores próximos num dos eixos do plano valênciaexcitação. Tendo o nosso modelo de reconhecimento de emoções a partir da fala pronto, fizémos uma avaliação da depressão usando áudios de voz de grupos de pessoas com depressão e saudáveis e as emoções previstas pelo nosso modelo. Por conseguinte, utilizámos o conjunto de dados DAIC-WOZ, e o nosso modelo treinado no conjunto de dados combinado com aumento de dados e sem pré-processamento. Utilizámos o modelo com o conjunto de dados combinado porque tem a maior variabilidade possível. Uma vez que o aplicámos a dados de uma população completamente diferente, o conjunto de dados combinado é o que pode generalizar melhor. A combinação utilizada é com aumento de dados e sem pré-processamento porque é a que tem melhores resultados para o conjunto de dados combinado numa abordagem independente do orador, que é o caso aqui. As principais conclusões na avaliação das diferenças emocionais entre grupos de pessoas com depressão e grupos controlo estão relacionadas com ‘nojo’, ‘medo’ e ‘tristeza’. Para ‘nojo’, encontrámos provas de que os níveis mais elevados de depressão podem estar relacionados com valores mais baixos de ‘nojo’. Embora nenhum dos grupos tenha frequentemente experimentado ‘medo’, verificámos que indivíduos com depressão grave podem apresentar valores mais altos de ‘medo’ em relação a indivíduos com níveis mais baixos de depressão. Para ‘tristeza’, encontrámos provas de que níveis mais elevados de ‘tristeza’ podem estar relacionados com níveis mais elevados de depressão. Durante a realização deste trabalho pôs-se ainda em questão se seria possível usar áudios de voz para detetar outras patologias. Visto que se usaram propriedades relacionadas com a voz, tentou-se perceber se era possível usar as características vocais para reconhecer distúrbios relacionados com a fala usando a base de dados TORGO. Esta base de dados inclui áudios provenientes de 8 participantes com patologia causadora de disartria e 7 participantes controlo. Os dados correspondem a áudios como sons, palavras curtas, frases restritas e frases não restritas por parte de todos os participantes. Neste sentido, alcançouse uma acurácia de 93.75% na detecção de pessoas com esta doença, numa abordagem independente do orador. Um possível trabalho futuro deve abordar a questão dos áudios aqui tratados não corresponderam a áudios gravados num ambiente de vida real. Para isso deve-se ter acesso a áudios correspondentes a iterações da vida real que estejam classificados de acordo com a emoção sentida. Outra tarefa a pensar seria eliminar o ruído das amostras de áudio adquiridas. Outras melhorias que poderiam ser feitas seriam ajustar os hiperparâmetros do classificador e aplicar seleção de características, o que poderia melhorar o desempenho do classificador. Na nossa avaliação das emoções nos vários grupos com depressão, utilizámos o nosso modelo de reconhecimento de emoções pela fala que apresenta uma acurácia inferior a 50%, numa abordagem independente do orador. Consequentemente, as emoções previstas não são uma representação exata da realidade. Além disso, o número de sujeitos em cada grupo diminui à medida que o nível de depressão aumenta, pelo que não temos um número elevado de amostras dos grupos de depressão. Ainda, as amostras de áudio são provenientes de entrevistas, e a pessoa sabe que estão a ser gravadas, consequentemente pode esconder as suas emoções. Os resultados de uma avaliação das diferenças emocionais entre os grupos de depressão e um modelo de reconhecimento de emoções poderiam ajudar, num trabalho futuro, a desenvolver um modelo capaz de detetar automaticamente o nível de depressão de uma pessoa.
Autores principais:	Silva, Daniel Brandão da
Assunto:	Emoções Depressão Reconhecimento de emoções Disartria CNN Teses de mestrado - 2023
Ano:	2023
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso embargado
Instituição associada:	Universidade de Lisboa
Idioma:	inglês
Origem:	Repositório da Universidade de Lisboa

_version_	1866810618094288896
author	Silva, Daniel Brandão da
author_facet	Silva, Daniel Brandão da
author_role	author
contributor_name_str_mv	Ferreira, Hugo Alexandre Repositório Científico de Acesso Aberto da ULisboa
country_str	PT
creators_json_txt	[{\"Person.name\":\"Silva, Daniel Brandão da\"}]
datacite.contributors.contributor.contributorName.fl_str_mv	Ferreira, Hugo Alexandre Repositório Científico de Acesso Aberto da ULisboa
datacite.creators.creator.creatorName.fl_str_mv	Silva, Daniel Brandão da
datacite.date.Accepted.fl_str_mv	2023-01-01T00:00:00Z
datacite.date.available.fl_str_mv	2025-10-30T00:00:00Z
datacite.date.embargoed.fl_str_mv	2025-10-30T00:00:00Z
datacite.rights.fl_str_mv	http://purl.org/coar/access_right/c_f1cf
datacite.subjects.subject.fl_str_mv	Emoções Depressão Reconhecimento de emoções Disartria CNN Teses de mestrado - 2023
datacite.titles.title.fl_str_mv	Speech emotion recognition models from multisourced data and application to depression and dysarthria
dc.contributor.none.fl_str_mv	Ferreira, Hugo Alexandre Repositório Científico de Acesso Aberto da ULisboa
dc.creator.none.fl_str_mv	Silva, Daniel Brandão da
dc.date.Accepted.fl_str_mv	2023-01-01T00:00:00Z
dc.date.available.fl_str_mv	2025-10-30T00:00:00Z
dc.date.embargoed.fl_str_mv	2025-10-30T00:00:00Z
dc.format.none.fl_str_mv	application/pdf
dc.identifier.none.fl_str_mv	http://hdl.handle.net/10451/59390
dc.language.none.fl_str_mv	eng
dc.rights.none.fl_str_mv	http://purl.org/coar/access_right/c_f1cf
dc.subject.none.fl_str_mv	Emoções Depressão Reconhecimento de emoções Disartria CNN Teses de mestrado - 2023
dc.title.fl_str_mv	Speech emotion recognition models from multisourced data and application to depression and dysarthria
dc.type.none.fl_str_mv	http://purl.org/coar/resource_type/c_bdcc
description	Cerca de 15.5% da população mundial apresemta algum tipo de problema do foro mental, com este cenário a aumentar, particularmente depois da pandemia causada pela COVID-19. Uma vez que problemas de saúde mental afetam várias populações e os transtornos de depressão e ansiedade estão a tornar-se cada vez mais prevalecentes, o estudo das emoções torna-se mais necessário. Por conseguinte, a deteção precoce e consequente tratamento da depressão são aspetos cruciais. Uma das formas de detetar emoções é através da fala. A fala é um método de comunicação vital, esta não só transmite uma mensagem semântica como também detalhes sobre o estado emocional do orador, através da sua voz. É razoavelmente simples de recolher e processar em tempo real, através de um sensor auditivo como um microfone. Aspeto este que é crucial ao considerar qual a modalidade a utilizar para o reconhecimento das emoções. Um sistema capaz de registar áudio e analisar emoções poderia permitir o diagnóstico automático de depressão em doentes, ajudando os médicos a apoiar as suas decisões e evitar erros críticos, permitindo cuidados mentais pró-ativos. Posto isto, podemos dizer que esta dissertação tem dois objetivos principais. Um deles é ser capaz de reconhecer as emoções através dos sinais áudio da fala com base nas suas características acústicas e com a ajuda de algoritmos de machine learning. O outro é utilizar essa capacidade para avaliar as diferenças emocionais entre grupos de pessoas com e sem depressão. Se conhecermos o perfil emocional das pessoas com depressão e as suas diferenças em comparação com um grupo saudável, tendo um sistema capaz de reconhecer as emoções seria possível ajudar os clínicos a diagnosticar depressão. Uma vez que estávamos a trabalhar com características relacionadas com a fala, acrescentámos um objetivo paralelo de detetar doentes com perturbações da fala, a partir de áudios dos mesmos. O primeiro passo foi implementar o reconhecimento de emoções: ‘raiva’; ‘nojo’; ‘medo’; ‘felicidade’; ‘neutra’; ‘tristeza’; ‘surpresa’. Os métodos utilizados basearam-se no pré-processamento dos áudios e em técnicas de aumento do número de dados existentes. No pré-processamento realizado foi considerada a remoção de partes de silêncio no início e fim dos sinais e a sua filtragem. As características extraídas dos áudios foram as seguintes: Zero Crossing Rare, Chroma, Mel Frequency Cepstral Coefficents, Root Mean Square, Mean Mel Spectogram, Mean Fundamental Frequency, Mean Fundamental Frequency variability e Energia. O classificador utilizado foi uma rede neural convolocional que incluí camadas unidimensionais convolutivas combinadas com camadas de dropout, max-polling, e activation. Realizámos o reconhecimento das emoções nos conjuntos de dados: RAVDESS (7 emoções), TESS (7 emoções), CREMA-D (6 emoções) e SAVEE (7 emoções). Para isso, extraímos as características dos áudios mencionadas no parágrafo anterior e comparámos a utilização de técnicas de pré-processamento e de aumento do número de dados no desempenho do nosso modelo. O reconhecimento de emoções pode ser categorizado em dependente do orador (SD) ou independented do orador (SI). Nos conjuntos de dados de treino e teste dos estudos SD, existem amostras de áudio do mesmo ator expressando várias emoções. Por outro lado, os estudos SI usam dados de treino e teste compostos por amostras de áudio de diferentes atores. Para uma abordagem dependente do orador, obtivemos resultados de acurácia de 65.81%, 99.24%, 50.05%, 69.55%, e 62.34% para RAVDESS, TESS, CREMA-D, SAVEE, e para o conjunto de dados combinados, respetivamente. A partir dos resultados, concluímos que o pré-processamento melhora a acurácia média quando temos menos amostras de dados. No entanto, com mais amostras de dados, o préprocessamento não influencia significativamente o desempenho porque o modelo tem mais dados com que aprender. De um modo geral, o aumento do número de dados é uma boa técnica para um sistema dependente do orador. O pré-processamento também pode ser utilizado quando o conjunto de dados é pequeno. Além disso, TESS e SAVEE têm melhores resultados que os restantes, o que indica que o modelo pode aprender melhor com um menor número de oradores. Portanto, se quisermos monitorizar o estado emocional de uma única pessoa ao longo do tempo, podemos criar um modelo usando amostras de discurso rotuladas emocionalmente dessa pessoa e depois usá-lo para prever as suas emoções no futuro. Para uma abordagem independente do orador, obtivemos resultados de acurácia de 41.29%, 30.51%, 45.10%, 41.54%, e 44.05% para RAVDESS, TESS, CREMA-D, SAVEE, e para o conjunto de dados combinados, respetivamente. Nesta abordagem, o aumento do número de dados e o pré-processamento não parecem ter tanta influência, como acontece na abordagem dependente do orador. No entanto, é útil utilizar estas técnicas quando o tamanho do conjunto de dados é pequeno. Além disso, vemos que tendo menos oradores é pior nesta abordagem. TESS tem apenas dois oradores, e o modelo irá sobreajustar-se ao orador utilizado no treino numa abordagem independente do orador. Assim, quando queremos prever emoções em oradores que não estão presentes no treino, devemos utilizar dados no treino de muitos oradores diferentes. Outras conclusões relacionadas com o reconhecimento de emoções pela voz são que a maioria das classificações erradas ocorrem entre emoções com valores próximos num dos eixos do plano valênciaexcitação. Tendo o nosso modelo de reconhecimento de emoções a partir da fala pronto, fizémos uma avaliação da depressão usando áudios de voz de grupos de pessoas com depressão e saudáveis e as emoções previstas pelo nosso modelo. Por conseguinte, utilizámos o conjunto de dados DAIC-WOZ, e o nosso modelo treinado no conjunto de dados combinado com aumento de dados e sem pré-processamento. Utilizámos o modelo com o conjunto de dados combinado porque tem a maior variabilidade possível. Uma vez que o aplicámos a dados de uma população completamente diferente, o conjunto de dados combinado é o que pode generalizar melhor. A combinação utilizada é com aumento de dados e sem pré-processamento porque é a que tem melhores resultados para o conjunto de dados combinado numa abordagem independente do orador, que é o caso aqui. As principais conclusões na avaliação das diferenças emocionais entre grupos de pessoas com depressão e grupos controlo estão relacionadas com ‘nojo’, ‘medo’ e ‘tristeza’. Para ‘nojo’, encontrámos provas de que os níveis mais elevados de depressão podem estar relacionados com valores mais baixos de ‘nojo’. Embora nenhum dos grupos tenha frequentemente experimentado ‘medo’, verificámos que indivíduos com depressão grave podem apresentar valores mais altos de ‘medo’ em relação a indivíduos com níveis mais baixos de depressão. Para ‘tristeza’, encontrámos provas de que níveis mais elevados de ‘tristeza’ podem estar relacionados com níveis mais elevados de depressão. Durante a realização deste trabalho pôs-se ainda em questão se seria possível usar áudios de voz para detetar outras patologias. Visto que se usaram propriedades relacionadas com a voz, tentou-se perceber se era possível usar as características vocais para reconhecer distúrbios relacionados com a fala usando a base de dados TORGO. Esta base de dados inclui áudios provenientes de 8 participantes com patologia causadora de disartria e 7 participantes controlo. Os dados correspondem a áudios como sons, palavras curtas, frases restritas e frases não restritas por parte de todos os participantes. Neste sentido, alcançouse uma acurácia de 93.75% na detecção de pessoas com esta doença, numa abordagem independente do orador. Um possível trabalho futuro deve abordar a questão dos áudios aqui tratados não corresponderam a áudios gravados num ambiente de vida real. Para isso deve-se ter acesso a áudios correspondentes a iterações da vida real que estejam classificados de acordo com a emoção sentida. Outra tarefa a pensar seria eliminar o ruído das amostras de áudio adquiridas. Outras melhorias que poderiam ser feitas seriam ajustar os hiperparâmetros do classificador e aplicar seleção de características, o que poderia melhorar o desempenho do classificador. Na nossa avaliação das emoções nos vários grupos com depressão, utilizámos o nosso modelo de reconhecimento de emoções pela fala que apresenta uma acurácia inferior a 50%, numa abordagem independente do orador. Consequentemente, as emoções previstas não são uma representação exata da realidade. Além disso, o número de sujeitos em cada grupo diminui à medida que o nível de depressão aumenta, pelo que não temos um número elevado de amostras dos grupos de depressão. Ainda, as amostras de áudio são provenientes de entrevistas, e a pessoa sabe que estão a ser gravadas, consequentemente pode esconder as suas emoções. Os resultados de uma avaliação das diferenças emocionais entre os grupos de depressão e um modelo de reconhecimento de emoções poderiam ajudar, num trabalho futuro, a desenvolver um modelo capaz de detetar automaticamente o nível de depressão de uma pessoa.
dirty	0
eu_rights_str_mv	embargoedAccess
format	masterThesis
fulltext.url.fl_str_mv	https://repositorio.ulisboa.pt/bitstreams/c5926b45-9edf-47eb-a37b-1731e10d7d84/download
id	ul_3917469a805bbe092ed6bf15d725f430
identifier.url.fl_str_mv	http://hdl.handle.net/10451/59390
instacron_str	ul
institution	Universidade de Lisboa
instname_str	Universidade de Lisboa
language	eng
network_acronym_str	ul
network_name_str	Repositório da Universidade de Lisboa
oai_identifier_str	oai:repositorio.ulisboa.pt:10451/59390
organization_str_mv	urn:organizationAcronym:ul
person_str_mv	Silva, Daniel Brandão da
publishDate	2023
reponame_str	Repositório da Universidade de Lisboa
repository_id_str	urn:repositoryAcronym:ul
service_str_mv	urn:repositoryAcronym:ul
spelling	engpt_PTCerca de 15.5% da população mundial apresemta algum tipo de problema do foro mental, com este cenário a aumentar, particularmente depois da pandemia causada pela COVID-19. Uma vez que problemas de saúde mental afetam várias populações e os transtornos de depressão e ansiedade estão a tornar-se cada vez mais prevalecentes, o estudo das emoções torna-se mais necessário. Por conseguinte, a deteção precoce e consequente tratamento da depressão são aspetos cruciais. Uma das formas de detetar emoções é através da fala. A fala é um método de comunicação vital, esta não só transmite uma mensagem semântica como também detalhes sobre o estado emocional do orador, através da sua voz. É razoavelmente simples de recolher e processar em tempo real, através de um sensor auditivo como um microfone. Aspeto este que é crucial ao considerar qual a modalidade a utilizar para o reconhecimento das emoções. Um sistema capaz de registar áudio e analisar emoções poderia permitir o diagnóstico automático de depressão em doentes, ajudando os médicos a apoiar as suas decisões e evitar erros críticos, permitindo cuidados mentais pró-ativos. Posto isto, podemos dizer que esta dissertação tem dois objetivos principais. Um deles é ser capaz de reconhecer as emoções através dos sinais áudio da fala com base nas suas características acústicas e com a ajuda de algoritmos de machine learning. O outro é utilizar essa capacidade para avaliar as diferenças emocionais entre grupos de pessoas com e sem depressão. Se conhecermos o perfil emocional das pessoas com depressão e as suas diferenças em comparação com um grupo saudável, tendo um sistema capaz de reconhecer as emoções seria possível ajudar os clínicos a diagnosticar depressão. Uma vez que estávamos a trabalhar com características relacionadas com a fala, acrescentámos um objetivo paralelo de detetar doentes com perturbações da fala, a partir de áudios dos mesmos. O primeiro passo foi implementar o reconhecimento de emoções: ‘raiva’; ‘nojo’; ‘medo’; ‘felicidade’; ‘neutra’; ‘tristeza’; ‘surpresa’. Os métodos utilizados basearam-se no pré-processamento dos áudios e em técnicas de aumento do número de dados existentes. No pré-processamento realizado foi considerada a remoção de partes de silêncio no início e fim dos sinais e a sua filtragem. As características extraídas dos áudios foram as seguintes: Zero Crossing Rare, Chroma, Mel Frequency Cepstral Coefficents, Root Mean Square, Mean Mel Spectogram, Mean Fundamental Frequency, Mean Fundamental Frequency variability e Energia. O classificador utilizado foi uma rede neural convolocional que incluí camadas unidimensionais convolutivas combinadas com camadas de dropout, max-polling, e activation. Realizámos o reconhecimento das emoções nos conjuntos de dados: RAVDESS (7 emoções), TESS (7 emoções), CREMA-D (6 emoções) e SAVEE (7 emoções). Para isso, extraímos as características dos áudios mencionadas no parágrafo anterior e comparámos a utilização de técnicas de pré-processamento e de aumento do número de dados no desempenho do nosso modelo. O reconhecimento de emoções pode ser categorizado em dependente do orador (SD) ou independented do orador (SI). Nos conjuntos de dados de treino e teste dos estudos SD, existem amostras de áudio do mesmo ator expressando várias emoções. Por outro lado, os estudos SI usam dados de treino e teste compostos por amostras de áudio de diferentes atores. Para uma abordagem dependente do orador, obtivemos resultados de acurácia de 65.81%, 99.24%, 50.05%, 69.55%, e 62.34% para RAVDESS, TESS, CREMA-D, SAVEE, e para o conjunto de dados combinados, respetivamente. A partir dos resultados, concluímos que o pré-processamento melhora a acurácia média quando temos menos amostras de dados. No entanto, com mais amostras de dados, o préprocessamento não influencia significativamente o desempenho porque o modelo tem mais dados com que aprender. De um modo geral, o aumento do número de dados é uma boa técnica para um sistema dependente do orador. O pré-processamento também pode ser utilizado quando o conjunto de dados é pequeno. Além disso, TESS e SAVEE têm melhores resultados que os restantes, o que indica que o modelo pode aprender melhor com um menor número de oradores. Portanto, se quisermos monitorizar o estado emocional de uma única pessoa ao longo do tempo, podemos criar um modelo usando amostras de discurso rotuladas emocionalmente dessa pessoa e depois usá-lo para prever as suas emoções no futuro. Para uma abordagem independente do orador, obtivemos resultados de acurácia de 41.29%, 30.51%, 45.10%, 41.54%, e 44.05% para RAVDESS, TESS, CREMA-D, SAVEE, e para o conjunto de dados combinados, respetivamente. Nesta abordagem, o aumento do número de dados e o pré-processamento não parecem ter tanta influência, como acontece na abordagem dependente do orador. No entanto, é útil utilizar estas técnicas quando o tamanho do conjunto de dados é pequeno. Além disso, vemos que tendo menos oradores é pior nesta abordagem. TESS tem apenas dois oradores, e o modelo irá sobreajustar-se ao orador utilizado no treino numa abordagem independente do orador. Assim, quando queremos prever emoções em oradores que não estão presentes no treino, devemos utilizar dados no treino de muitos oradores diferentes. Outras conclusões relacionadas com o reconhecimento de emoções pela voz são que a maioria das classificações erradas ocorrem entre emoções com valores próximos num dos eixos do plano valênciaexcitação. Tendo o nosso modelo de reconhecimento de emoções a partir da fala pronto, fizémos uma avaliação da depressão usando áudios de voz de grupos de pessoas com depressão e saudáveis e as emoções previstas pelo nosso modelo. Por conseguinte, utilizámos o conjunto de dados DAIC-WOZ, e o nosso modelo treinado no conjunto de dados combinado com aumento de dados e sem pré-processamento. Utilizámos o modelo com o conjunto de dados combinado porque tem a maior variabilidade possível. Uma vez que o aplicámos a dados de uma população completamente diferente, o conjunto de dados combinado é o que pode generalizar melhor. A combinação utilizada é com aumento de dados e sem pré-processamento porque é a que tem melhores resultados para o conjunto de dados combinado numa abordagem independente do orador, que é o caso aqui. As principais conclusões na avaliação das diferenças emocionais entre grupos de pessoas com depressão e grupos controlo estão relacionadas com ‘nojo’, ‘medo’ e ‘tristeza’. Para ‘nojo’, encontrámos provas de que os níveis mais elevados de depressão podem estar relacionados com valores mais baixos de ‘nojo’. Embora nenhum dos grupos tenha frequentemente experimentado ‘medo’, verificámos que indivíduos com depressão grave podem apresentar valores mais altos de ‘medo’ em relação a indivíduos com níveis mais baixos de depressão. Para ‘tristeza’, encontrámos provas de que níveis mais elevados de ‘tristeza’ podem estar relacionados com níveis mais elevados de depressão. Durante a realização deste trabalho pôs-se ainda em questão se seria possível usar áudios de voz para detetar outras patologias. Visto que se usaram propriedades relacionadas com a voz, tentou-se perceber se era possível usar as características vocais para reconhecer distúrbios relacionados com a fala usando a base de dados TORGO. Esta base de dados inclui áudios provenientes de 8 participantes com patologia causadora de disartria e 7 participantes controlo. Os dados correspondem a áudios como sons, palavras curtas, frases restritas e frases não restritas por parte de todos os participantes. Neste sentido, alcançouse uma acurácia de 93.75% na detecção de pessoas com esta doença, numa abordagem independente do orador. Um possível trabalho futuro deve abordar a questão dos áudios aqui tratados não corresponderam a áudios gravados num ambiente de vida real. Para isso deve-se ter acesso a áudios correspondentes a iterações da vida real que estejam classificados de acordo com a emoção sentida. Outra tarefa a pensar seria eliminar o ruído das amostras de áudio adquiridas. Outras melhorias que poderiam ser feitas seriam ajustar os hiperparâmetros do classificador e aplicar seleção de características, o que poderia melhorar o desempenho do classificador. Na nossa avaliação das emoções nos vários grupos com depressão, utilizámos o nosso modelo de reconhecimento de emoções pela fala que apresenta uma acurácia inferior a 50%, numa abordagem independente do orador. Consequentemente, as emoções previstas não são uma representação exata da realidade. Além disso, o número de sujeitos em cada grupo diminui à medida que o nível de depressão aumenta, pelo que não temos um número elevado de amostras dos grupos de depressão. Ainda, as amostras de áudio são provenientes de entrevistas, e a pessoa sabe que estão a ser gravadas, consequentemente pode esconder as suas emoções. Os resultados de uma avaliação das diferenças emocionais entre os grupos de depressão e um modelo de reconhecimento de emoções poderiam ajudar, num trabalho futuro, a desenvolver um modelo capaz de detetar automaticamente o nível de depressão de uma pessoa.application/pdfpt_PTSpeech emotion recognition models from multisourced data and application to depression and dysarthriaSilva, Daniel Brandão daFerreira, Hugo AlexandreHostingInstitutionOrganizationalRepositório Científico de Acesso Aberto da ULisboae-mailmailto:repositorio@reitoria.ulisboa.ptrepositorio@reitoria.ulisboa.ptURNurn:tid:203507827202320222025-10-30T00:00:00Z2023-01-01T00:00:00ZHandlehttp://hdl.handle.net/10451/59390http://purl.org/coar/access_right/c_f1cfembargoed accessEmoçõesDepressãoReconhecimento de emoçõesDisartriaCNNTeses de mestrado - 20232848304 bytesliteraturehttp://purl.org/coar/resource_type/c_bdccmaster thesishttp://purl.org/coar/access_right/c_f1cfapplication/pdffulltexthttps://repositorio.ulisboa.pt/bitstreams/c5926b45-9edf-47eb-a37b-1731e10d7d84/download
spellingShingle	Speech emotion recognition models from multisourced data and application to depression and dysarthria Silva, Daniel Brandão da Emoções Depressão Reconhecimento de emoções Disartria CNN Teses de mestrado - 2023
status	SINGLETON
subject.fl_str_mv	Emoções Depressão Reconhecimento de emoções Disartria CNN Teses de mestrado - 2023
title	Speech emotion recognition models from multisourced data and application to depression and dysarthria
title_full	Speech emotion recognition models from multisourced data and application to depression and dysarthria
title_fullStr	Speech emotion recognition models from multisourced data and application to depression and dysarthria
title_full_unstemmed	Speech emotion recognition models from multisourced data and application to depression and dysarthria
title_short	Speech emotion recognition models from multisourced data and application to depression and dysarthria
title_sort	Speech emotion recognition models from multisourced data and application to depression and dysarthria
topic	Emoções Depressão Reconhecimento de emoções Disartria CNN Teses de mestrado - 2023
topic_facet	Emoções Depressão Reconhecimento de emoções Disartria CNN Teses de mestrado - 2023
url	http://hdl.handle.net/10451/59390
visible	1

Publicação

Speech emotion recognition models from multisourced data and application to depression and dysarthria

Registos relacionados