Author(s): Coelho, Luís
Date: 2024
Origin: Revista Portuguesa de Medicina Interna
Subject(s): Aprendizagem Automática; Biomarcadores; Emoções; Fala; Biomarkers; Emotions; Machine Learning; Speech
Author(s): Coelho, Luís
Date: 2024
Origin: Revista Portuguesa de Medicina Interna
Subject(s): Aprendizagem Automática; Biomarcadores; Emoções; Fala; Biomarkers; Emotions; Machine Learning; Speech
Introduction: Healthcare professionals often contend with significant emotional burdens in their work, including the impact of negative emotions, such as stress and anxiety, which can have profound consequences on immediate and long-term healthcare delivery. In this paper a stress estimation algorithm is proposed based on the classification of negative valence emotions in speech recordings. Methods: An end-to-end machine learning pipeline is proposed. Two distinct decision models are considered, VGG-16 and SqueezeNet, while sharing a common constant Q power spectrogram input for acoustic representation. The system is trained and evaluated using the RAVDESS and TESS emotional speech datasets. Results: The system was evaluated for individual emotionclassification (multiclass problem) and also for negative andneutral or positive emotion classification (binary problem). The results achieved are comparable to previously reported systems, with the SqueezeNet model offering a significantly smaller footprint, enabling versatile applications. Further exploration of the model's parameter space holds promise for enhanced performance. Conclusion: The proposed system can constitute a feasibleapproach for the estimation of a low-cost non-invasive biomarker for negative emotions. This allows to raise alerts and develop mitigating actions to the burden of negative emotions, being an additional management tool for healthcare services that allows to maintain quality and maximize availability.
Introdução: Os profissionais de saúde enfrentam frequentemente cargas emocionais significativas no seu trabalho, incluindo o impacto de emoções negativas, como o stress e a ansiedade, que podem ter graves consequências no desempenho das suas funções de prestação de cuidados de saúde imediatos e também na sua própria saúde a longo prazo. Neste artigo, é proposto um algoritmo de estimativa do stress baseado na classificação de emoções de valência negativa em gravações de fala. Métodos: É proposto um pipeline de aprendizagem automática de ponta a ponta. São considerados cenários de modelos de decisão distintos, o VGG-16 e o SqueezeNet, que partilham uma entrada comum de espetrograma de potência Q constante para representação acústica. Os sistemas são treinados e avaliados utilizando os conjuntos de dados de fala emocional RAVDESS e TESS. Resultados: O sistema foi avaliado para a classificação de um conjunto de emoções (problema multiclasse) e tambémpara a classificação de emoções negativas e neutras, distinguindo-as das positivas (problema binário). Os resultados obtidos são comparáveis aos dos sistemas anteriormente registados, com o modelo SqueezeNet a oferecer uma pegada significativamente mais pequena, permitindo aplicações versáteis. Uma exploração mais aprofundada do espaço de parâmetros do modelo não foi exaustiva e por isso é promissora para a melhoria do desempenho. Conclusão: O sistema proposto pode constituir uma abordagem viável para a estimativa de um biomarcador não-invasivo de baixo custo para emoções negativas. Isto permite ativar alertas e desenvolver ações de mitigação para a presença de emoções negativas, sendo uma ferramenta de gestão adicional para os serviços de saúde que permite manter a qualidade e maximizar a sua disponibilidade.