| Resumo: | As orexinas estão relacionadas com uma série de funções fisiológicas, desde a regulação do metabolismo, ao stress, ao sistema cardiovascular e ao sono. Muitas vias fisiopatológicas já estão descritas na literatura, como a insónia, a depressão crónica e a ansiedade. Recentemente, estes neurotransmissores têm despertado interesse, uma vez que a sua desregulação tem sido relacionada com a Doença de Alzheimer (DA), sem mecanismo conhecido até à data. Uma vez que a DA não tem cura conhecida, sendo a terapêutica de manutenção o tratamento padrão atual, encontrar a relação entre o sistema de orexinas e a DA poderá ser frutífero para a indústria farmacêutica e, subsequentemente, melhorar futuramente os resultados terapêuticos em doentes. Neste estudo de 296 compostos, foram utilizados vários modelos de Machine Learning, sob a forma de classificadores binários, para aprender com os dados existentes, relativos a compostos que têm atividade com o Recetor da Orexina-1 e, posteriormente, testar o seu desempenho em dados “não vistos”. O principal objetivo é encontrar um modelo viável e fiável que consiga reconhecer moléculas ativas para este recetor, sendo essa atividade definida em função das suas bioatividades. Este método é utilizado para reduzir o tempo e custo pré-clínico, acelerando e possivelmente melhorando o desenvolvimento de medicamentos. Foram utilizados quatro estimadores - Random Forest (RF), Gradient Boosting Classifier (GBC), C-Support Vector Classification (SVC) e Stochastic Gradient Descent (SGD) - combinados com seleção de variáveis através de Recursive Feature Elimination e otimização por grid search dos parâmetros-chave do modelo. Estes modelos foram depois aplicados num loop cinco vezes para avaliar a variação do seu desempenho e o efeito da divisão dos dados no treino e teste. As pontuações de desempenho dos modelos foram baixas, com valores médios de F1-score entre 0,53 e 0,65, sendo que o SGD teve o pior desempenho e o SVC foi o melhor. As principais razões do baixo desempenho global do modelo parecem ter sido o tamanho reduzido do conjunto de dados e o desequilíbrio entre classes na variável alvo. O loop demonstrou inconsistência nas pontuações do modelo devido à variância subjacente das divisões do treino e teste. A necessidade de recolher mais dados e partir de um conjunto de dados maior e mais robusto foi identificada como fundamental para a utilização destas metodologias em trabalhos futuros. |