Document details

Machine learning algorithms to predict blood-brain barrier permeability of drug molecules

Author(s): Martins, Inês Filipa dos Santos, 1988-

Date: 2011

Persistent ID: http://hdl.handle.net/10451/4838

Origin: Repositório da Universidade de Lisboa

Subject(s): Bioinformática; Neurobiologia; Teses de mestrado - 2011


Description

Tese de mestrado. Bioinformática e Biologia Computacional (Bioinformática). Universidade de Lisboa, Faculdade de Ciências, 2011

A incidência de doenças ligadas ao sistema nervoso central (SNC) aumenta exponencialmente depois dos 65 anos e o aumento da esperança média de vida vem aumentar a população mundial com mais de 65 anos. Depressões, dor crónica, epilépsia e enxaquecas são algumas condições clínicas (distúrbios do SNC) que apresentam tratamento no entanto, podem ser consideradas excepções perante a maioria dos distúrbios do SNC, que incluem doenças neurodegenerativas e que têm muito poucas opções de tratamento. Alguns destes casos são a doença de Alzheimer, doença de Parkinson, esclerose amiotrófica lateral, esclerosemúltipla, cancro do cérebro, entre outras. O aumento do número de casos com doenças neurodegenerativas veio então aumentar a necessidade de descoberta e desenvolvimento de novos fármacos que combatam e curem estas doenças. Por exemplo, a doença de Alzheimer afecta actualmente 18 milhões de pessoas a nível mundial e estima-se que em 2025 o número de casos chegue aos 34 milhões. Este pequeno grande exemplo demonstra a preocupação e a necessidade de novos fármacos que dêem esperança de cura a estes e muitos outros casos de doenças neurodegenerativas. No entanto, esta é uma tarefa com dificuldades acrescidas face ao desenvolvimento de fármacos com alvos noutras partes do organismo que não o cérebro. O tempo necessário para que um fármaco com alvos no SNC chegue aos mercados pode ir de 12 a 16 anos, enquanto que um fármaco que não actue no SNC vai de 10 a 12 anos. Esta grande diferença prende-se com a complexidade do cérebro, a tendência desses fármacos para causar efeitos secundários e a existência da barreira hemato-encefálica (BHE). A BHE separa o fluído cerebroespinal do sangue em circulação, impedindo a livre passagem da grande maioria das substâncias (mesmo as pequenas moléculas) da corrente sanguínea para o cérebro. De entre estas substâncias encontram-se os fármacos, estimando-se que cerca de 95% destes não consigam atravessar a barreira, deixando-nos apenas uma ínfima parte susceptível de atravessá-la. Isto significa que fármacos que têm efeito terapêutico noutras partes do organismo, são inúteis para alvos no SNC pela baixa permeabilidade da BHE, tornando muito difícil o tratamento de infecções bacterianas e virais no SNC através dos antibióticos convencionais. Muitas das doenças neurodegenerativas apresentadas acima poderiam ser tratadas com fármacos, enzimas ou genes já descobertos, infelizmente estas não conseguem atravessar a BHE. Além desta clara dificuldade imposta pela fisiologia existe ainda outra relacionada com a experimentação. A permeabilidade de um composto na BHE é convencionalmente medida pelo logaritmo do coeficiente de partição sangue-cérebro, tratando-se de uma medida da lipofilicidade. No entanto, a sua aquisição por ensaios experimentais é muito dispendiosa e o processo moroso ainda mais quando estão em análise milhares de compostos. Este processo integra a primeira fase de desenvolvimento de um fármaco que pode demorar até dois anos e em que são analisados, em média, 10000 compostos. São necessários até 16 anos para que um medicamento que actue do SNC chegue aos mercados e seja comercializado, nesse sentido, é objectivo deste trabalho contribuir com metodologias que visem a diminuição do tempo da primeira fase de desenvolvimento de um fármaco e por conseguinte, a diminuição do número de anos final. Para tal entramos no domínio da chamada quimio-informática, uma área na fronteira entre a Química e a Informática, que tenta retirar informação útil contida nos compostos químicos pela utilização e desenvolvimento de sistemas automatizados de recolha e processamento de dados, algoritmos, técnicas computacionais e métodos estatísticos. A utilização desta informação permite estabelecer correlações que só são possíveis com recurso aos computadores, às metodologias computacionais e à inteligência artificial. Estes recursos disseminaram-se fortemente na indústria química e farmacêutica que fazem investigação de novos produtos utilizando no processo métodos computacionais. A procura de metodologias que contribuam e favoreçam o desenvolvimento de novos compostos é emergente havendo uma grande procura de especialistas nesta área. Este trabalho, de forte componente computacional, faz uso de algoritmos de aprendizagem automática para determinar com melhor precisão se um determinado fármaco pode passar a barreira hemato-encefálica. Outros estudos têm-se baseado sobretudo na utilização de metodologias de aprendizagem standard usando como variáveis preditivas propriedades físicas e químicas dos compostos em análise. Neste trabalho utilizam-se descritores e impressões digitais moleculares (fingerprints) para analisar a diversidade estrutural existente num conjunto de compostos permitindo estabelecer medidas de semelhança estrutural entre moléculas e com isso prever o comportamento de um composto ”desconhecido”. Assim, no âmbito do projecto foram desenvolvidas três metodologias baseadas no algoritmo do vizinho mais próximo, nas redes neuronais artificiais e nas Random forests (floresta aleatória). Foram constituídos três conjuntos de dados (conjunto de dados I, conjunto de dados II e conjunto de dados III) com 628 (374 BHE+/254 BHE-), 729 (466 BHE+/263 BHE-) e 950 (466 BHE+/484 BHE-) moléculas, respectivamente. Os dois primeiros algoritmos testados foram o algoritmo do vizinho mais próximo e as redes neuronais, os quais seguem uma mesma lógica baseada no uso das impressões digitais moleculares. A partir destes, são geradas matrizes de similaridade onde é calculada uma medidade de semelhança entre cada par de moléculas. Segue-se a análise em coordenadas principais que reduz a matriz num vector de coordenadas com n dimensões, que são os descritores moleculares destes dois métodos. O algoritmo do vizinho mais próximo foi treinado e testado com o conjunto de dados I e 30 descritores tendo sido aplicada a validação cruzada com o método leave-one-out. Este algoritmo consegue prever correctamente a classificação dos compostos em 81.75%, 76.57% e 79.78% para BHE+ (compostos que passam a BHE), BHE- (compostos que não passam a BHE) e globalidade das duas classes, respectivamente. A metodologia que implementa as redes neuronais também foi treinada com o conjunto de dados I, tendo sido usados 40 descritores moleculares. O modelo foi validado com validação cruzada 5-fold, obtendo-se os valores de 77.16%, 81.45% e 79.68% para BHE+, BHE- e globalidade das duas classes, respectivamente. O modelo das Random Forests foi construído com base em 1051 descritores moleculares, de entre as impressões digitais moleculares foram também utilizados a massa molecular, massa molecular média, número de anéis, número de ligações em anéis e número de ligações possíveis para cada átomo de um subconjunto definido (C, N, O, S, Br, I, Cl, F e Na). Além da utilização de descritores moleculares diferentes dos que têm sido até agora utilizados na literatura, a metodologia apresentada neste trabalho é nova e traz inovação a esta área de desenvolvimento na medida em que faz uso da diferença percentual entre as duas classes de compostos, 5% para BHE+ e 95% BHE-. A maior parte dos estudos analisados na literatura apresentam conjuntos de dados populados maioritariamente por compostos que atravessam a BHE, no entanto esta situação não transparece a realidade. Nesse sentido, neste trabalho foi desenvolvido uma metodologia que efectua amostragens diferenciadas usando uma estratégia de oversampling (sobre-amostragem) nos compostos BHE- para melhor reflectir a realidade de modo a representar 95% de compostos BHEe apenas 5% de compostos BHE+. Os resultados demonstram-se bastante promissores, conseguindo a Random Forest prever correctamente a classificação dos compostos em 92%, 77.2% e 82.6%, para BHE+, BHE- e globalidade das duas classes, respectivamente. Esta metodologia apresenta os melhores resultados, ficando mesmo acima da maior parte dos valores apresentados na literatura. Com estes valores os principais objectivos desta tese são concretizados, tendo sido feito um contributo bastante positivo para a área, principalmente para uma previsão mais correcta da passagem de um composto pela barreia hemato-encefálica, o qual é um ponto chave no desenvolvimento de fármacos para o tratamento de doenças ao nível do SNC, que precisam obrigatoriamente de passar a BHE. Neste trabalho apenas foram apresentadas as três metodologias que se revelaram mais promissoras e com os melhores resultados embora ao longo do projecto tenham sido desenvolvidas e testada outras metodologias. Face aos resultados obtidos é proposta de trabalho futuro a concretização de uma aplicação que implemente a metodologia da Random Forest com vista a que seja um contributo `a Ciência e principalmente `a área de desenvolvimento de novos fármacos, contribuindo para uma análise rápida de grandes bibliotecas de compostos, restringido o leque de compostos com necessária intervenção de ensaios experimentais, diminuindo também o custo associado à investigação de compostos na primeira fase de desenvolvimento de um fármaco.

The increasing number of cases with neurodegenerative diseases has increased the need to discover and develop new drugs to combat and cure these diseases. However, this is a difficult task due to the existence of the blood-brain barrier (BBB), which prevents the free passage of most substances from the bloodstream to the brain. Drugs are among these substances and it is estimated that about 95% of these fail to cross the barrier, leaving us only a small fraction likely to cross it. Besides this clear difficulty imposed by physiology, logBB (blood-brain permeation coefficient), a coefficient used to measure the ability of a compound to cross the BBB, is difficult to acquire by experimental process, being very expensive and time consuming even more when there are thousands of compounds under analysis. This process includes the first phase of developing a drug that can take up to two years and could have in analysis an average of ten thousands compounds. Thus, one of the objectives is to contribute with methodologies to improve current methodologies for in silico compound pre-screening, so that a reasonable level of confidence in the effectiveness of an unknown molecule passing the BBB can be ascertained. This work has a strong computational component and makes use of state-of-the-art machine learning algorithms, namely the k-nearest neighbor algorithm, neural networks and random forests to determine more accurately whether a particular drug can pass the BBB. Molecular descriptors and molecular fingerprints are used to examine the structural diversity existing in a number of compounds allowing to establish measures of structural similarity between molecules and thereby predict the behavior of an ”unknown” compound. The methodology that uses random forests provides the best results, predicting correctly the classification of compounds in 92%, 77.2% and 82.6%, referring these values to BBB+, BBB- and overall accuracies, respectively. Results achieved are on par and even slighlty better compared to current results described in literature.

Document Type Master thesis
Language English
Advisor(s) Falcão, André Osório e Cruz de Azerêdo
Contributor(s) Repositório da Universidade de Lisboa
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents