Publicação

Machine learning algorithms to predict blood-brain barrier permeability of drug molecules

Ver documento

Detalhes bibliográficos
Resumo:A incidência de doenças ligadas ao sistema nervoso central (SNC) aumenta exponencialmente depois dos 65 anos e o aumento da esperança média de vida vem aumentar a população mundial com mais de 65 anos. Depressões, dor crónica, epilépsia e enxaquecas são algumas condições clínicas (distúrbios do SNC) que apresentam tratamento no entanto, podem ser consideradas excepções perante a maioria dos distúrbios do SNC, que incluem doenças neurodegenerativas e que têm muito poucas opções de tratamento. Alguns destes casos são a doença de Alzheimer, doença de Parkinson, esclerose amiotrófica lateral, esclerosemúltipla, cancro do cérebro, entre outras. O aumento do número de casos com doenças neurodegenerativas veio então aumentar a necessidade de descoberta e desenvolvimento de novos fármacos que combatam e curem estas doenças. Por exemplo, a doença de Alzheimer afecta actualmente 18 milhões de pessoas a nível mundial e estima-se que em 2025 o número de casos chegue aos 34 milhões. Este pequeno grande exemplo demonstra a preocupação e a necessidade de novos fármacos que dêem esperança de cura a estes e muitos outros casos de doenças neurodegenerativas. No entanto, esta é uma tarefa com dificuldades acrescidas face ao desenvolvimento de fármacos com alvos noutras partes do organismo que não o cérebro. O tempo necessário para que um fármaco com alvos no SNC chegue aos mercados pode ir de 12 a 16 anos, enquanto que um fármaco que não actue no SNC vai de 10 a 12 anos. Esta grande diferença prende-se com a complexidade do cérebro, a tendência desses fármacos para causar efeitos secundários e a existência da barreira hemato-encefálica (BHE). A BHE separa o fluído cerebroespinal do sangue em circulação, impedindo a livre passagem da grande maioria das substâncias (mesmo as pequenas moléculas) da corrente sanguínea para o cérebro. De entre estas substâncias encontram-se os fármacos, estimando-se que cerca de 95% destes não consigam atravessar a barreira, deixando-nos apenas uma ínfima parte susceptível de atravessá-la. Isto significa que fármacos que têm efeito terapêutico noutras partes do organismo, são inúteis para alvos no SNC pela baixa permeabilidade da BHE, tornando muito difícil o tratamento de infecções bacterianas e virais no SNC através dos antibióticos convencionais. Muitas das doenças neurodegenerativas apresentadas acima poderiam ser tratadas com fármacos, enzimas ou genes já descobertos, infelizmente estas não conseguem atravessar a BHE. Além desta clara dificuldade imposta pela fisiologia existe ainda outra relacionada com a experimentação. A permeabilidade de um composto na BHE é convencionalmente medida pelo logaritmo do coeficiente de partição sangue-cérebro, tratando-se de uma medida da lipofilicidade. No entanto, a sua aquisição por ensaios experimentais é muito dispendiosa e o processo moroso ainda mais quando estão em análise milhares de compostos. Este processo integra a primeira fase de desenvolvimento de um fármaco que pode demorar até dois anos e em que são analisados, em média, 10000 compostos. São necessários até 16 anos para que um medicamento que actue do SNC chegue aos mercados e seja comercializado, nesse sentido, é objectivo deste trabalho contribuir com metodologias que visem a diminuição do tempo da primeira fase de desenvolvimento de um fármaco e por conseguinte, a diminuição do número de anos final. Para tal entramos no domínio da chamada quimio-informática, uma área na fronteira entre a Química e a Informática, que tenta retirar informação útil contida nos compostos químicos pela utilização e desenvolvimento de sistemas automatizados de recolha e processamento de dados, algoritmos, técnicas computacionais e métodos estatísticos. A utilização desta informação permite estabelecer correlações que só são possíveis com recurso aos computadores, às metodologias computacionais e à inteligência artificial. Estes recursos disseminaram-se fortemente na indústria química e farmacêutica que fazem investigação de novos produtos utilizando no processo métodos computacionais. A procura de metodologias que contribuam e favoreçam o desenvolvimento de novos compostos é emergente havendo uma grande procura de especialistas nesta área. Este trabalho, de forte componente computacional, faz uso de algoritmos de aprendizagem automática para determinar com melhor precisão se um determinado fármaco pode passar a barreira hemato-encefálica. Outros estudos têm-se baseado sobretudo na utilização de metodologias de aprendizagem standard usando como variáveis preditivas propriedades físicas e químicas dos compostos em análise. Neste trabalho utilizam-se descritores e impressões digitais moleculares (fingerprints) para analisar a diversidade estrutural existente num conjunto de compostos permitindo estabelecer medidas de semelhança estrutural entre moléculas e com isso prever o comportamento de um composto ”desconhecido”. Assim, no âmbito do projecto foram desenvolvidas três metodologias baseadas no algoritmo do vizinho mais próximo, nas redes neuronais artificiais e nas Random forests (floresta aleatória). Foram constituídos três conjuntos de dados (conjunto de dados I, conjunto de dados II e conjunto de dados III) com 628 (374 BHE+/254 BHE-), 729 (466 BHE+/263 BHE-) e 950 (466 BHE+/484 BHE-) moléculas, respectivamente. Os dois primeiros algoritmos testados foram o algoritmo do vizinho mais próximo e as redes neuronais, os quais seguem uma mesma lógica baseada no uso das impressões digitais moleculares. A partir destes, são geradas matrizes de similaridade onde é calculada uma medidade de semelhança entre cada par de moléculas. Segue-se a análise em coordenadas principais que reduz a matriz num vector de coordenadas com n dimensões, que são os descritores moleculares destes dois métodos. O algoritmo do vizinho mais próximo foi treinado e testado com o conjunto de dados I e 30 descritores tendo sido aplicada a validação cruzada com o método leave-one-out. Este algoritmo consegue prever correctamente a classificação dos compostos em 81.75%, 76.57% e 79.78% para BHE+ (compostos que passam a BHE), BHE- (compostos que não passam a BHE) e globalidade das duas classes, respectivamente. A metodologia que implementa as redes neuronais também foi treinada com o conjunto de dados I, tendo sido usados 40 descritores moleculares. O modelo foi validado com validação cruzada 5-fold, obtendo-se os valores de 77.16%, 81.45% e 79.68% para BHE+, BHE- e globalidade das duas classes, respectivamente. O modelo das Random Forests foi construído com base em 1051 descritores moleculares, de entre as impressões digitais moleculares foram também utilizados a massa molecular, massa molecular média, número de anéis, número de ligações em anéis e número de ligações possíveis para cada átomo de um subconjunto definido (C, N, O, S, Br, I, Cl, F e Na). Além da utilização de descritores moleculares diferentes dos que têm sido até agora utilizados na literatura, a metodologia apresentada neste trabalho é nova e traz inovação a esta área de desenvolvimento na medida em que faz uso da diferença percentual entre as duas classes de compostos, 5% para BHE+ e 95% BHE-. A maior parte dos estudos analisados na literatura apresentam conjuntos de dados populados maioritariamente por compostos que atravessam a BHE, no entanto esta situação não transparece a realidade. Nesse sentido, neste trabalho foi desenvolvido uma metodologia que efectua amostragens diferenciadas usando uma estratégia de oversampling (sobre-amostragem) nos compostos BHE- para melhor reflectir a realidade de modo a representar 95% de compostos BHEe apenas 5% de compostos BHE+. Os resultados demonstram-se bastante promissores, conseguindo a Random Forest prever correctamente a classificação dos compostos em 92%, 77.2% e 82.6%, para BHE+, BHE- e globalidade das duas classes, respectivamente. Esta metodologia apresenta os melhores resultados, ficando mesmo acima da maior parte dos valores apresentados na literatura. Com estes valores os principais objectivos desta tese são concretizados, tendo sido feito um contributo bastante positivo para a área, principalmente para uma previsão mais correcta da passagem de um composto pela barreia hemato-encefálica, o qual é um ponto chave no desenvolvimento de fármacos para o tratamento de doenças ao nível do SNC, que precisam obrigatoriamente de passar a BHE. Neste trabalho apenas foram apresentadas as três metodologias que se revelaram mais promissoras e com os melhores resultados embora ao longo do projecto tenham sido desenvolvidas e testada outras metodologias. Face aos resultados obtidos é proposta de trabalho futuro a concretização de uma aplicação que implemente a metodologia da Random Forest com vista a que seja um contributo `a Ciência e principalmente `a área de desenvolvimento de novos fármacos, contribuindo para uma análise rápida de grandes bibliotecas de compostos, restringido o leque de compostos com necessária intervenção de ensaios experimentais, diminuindo também o custo associado à investigação de compostos na primeira fase de desenvolvimento de um fármaco.
Autores principais:Martins, Inês Filipa dos Santos, 1988-
Assunto:Bioinformática Neurobiologia Teses de mestrado - 2011
Ano:2011
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso aberto
Instituição associada:Universidade de Lisboa
Idioma:inglês
Origem:Repositório da Universidade de Lisboa
_version_ 1866811473560338432
author Martins, Inês Filipa dos Santos, 1988-
author_facet Martins, Inês Filipa dos Santos, 1988-
author_role author
contributor_name_str_mv Falcão, André Osório e Cruz de Azerêdo
Repositório Científico de Acesso Aberto da ULisboa
country_str PT
creators_json_txt [{\"Person.name\":\"Martins, Inês Filipa dos Santos, 1988-\"}]
datacite.contributors.contributor.contributorName.fl_str_mv Falcão, André Osório e Cruz de Azerêdo
Repositório Científico de Acesso Aberto da ULisboa
datacite.creators.creator.creatorName.fl_str_mv Martins, Inês Filipa dos Santos, 1988-
datacite.date.Accepted.fl_str_mv 2011-01-01T00:00:00Z
datacite.date.available.fl_str_mv 2012-01-06T15:26:44Z
datacite.date.embargoed.fl_str_mv 2012-01-06T15:26:44Z
datacite.rights.fl_str_mv http://purl.org/coar/access_right/c_abf2
datacite.subjects.subject.fl_str_mv Bioinformática
Neurobiologia
Teses de mestrado - 2011
datacite.titles.title.fl_str_mv Machine learning algorithms to predict blood-brain barrier permeability of drug molecules
dc.contributor.none.fl_str_mv Falcão, André Osório e Cruz de Azerêdo
Repositório Científico de Acesso Aberto da ULisboa
dc.creator.none.fl_str_mv Martins, Inês Filipa dos Santos, 1988-
dc.date.Accepted.fl_str_mv 2011-01-01T00:00:00Z
dc.date.available.fl_str_mv 2012-01-06T15:26:44Z
dc.date.embargoed.fl_str_mv 2012-01-06T15:26:44Z
dc.description.none.fl_str_mv The increasing number of cases with neurodegenerative diseases has increased the need to discover and develop new drugs to combat and cure these diseases. However, this is a difficult task due to the existence of the blood-brain barrier (BBB), which prevents the free passage of most substances from the bloodstream to the brain. Drugs are among these substances and it is estimated that about 95% of these fail to cross the barrier, leaving us only a small fraction likely to cross it. Besides this clear difficulty imposed by physiology, logBB (blood-brain permeation coefficient), a coefficient used to measure the ability of a compound to cross the BBB, is difficult to acquire by experimental process, being very expensive and time consuming even more when there are thousands of compounds under analysis. This process includes the first phase of developing a drug that can take up to two years and could have in analysis an average of ten thousands compounds. Thus, one of the objectives is to contribute with methodologies to improve current methodologies for in silico compound pre-screening, so that a reasonable level of confidence in the effectiveness of an unknown molecule passing the BBB can be ascertained. This work has a strong computational component and makes use of state-of-the-art machine learning algorithms, namely the k-nearest neighbor algorithm, neural networks and random forests to determine more accurately whether a particular drug can pass the BBB. Molecular descriptors and molecular fingerprints are used to examine the structural diversity existing in a number of compounds allowing to establish measures of structural similarity between molecules and thereby predict the behavior of an ”unknown” compound. The methodology that uses random forests provides the best results, predicting correctly the classification of compounds in 92%, 77.2% and 82.6%, referring these values to BBB+, BBB- and overall accuracies, respectively. Results achieved are on par and even slighlty better compared to current results described in literature.
dc.format.none.fl_str_mv application/pdf
dc.identifier.none.fl_str_mv http://hdl.handle.net/10451/4838
dc.language.none.fl_str_mv eng
dc.rights.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.subject.none.fl_str_mv Bioinformática
Neurobiologia
Teses de mestrado - 2011
dc.title.fl_str_mv Machine learning algorithms to predict blood-brain barrier permeability of drug molecules
dc.type.none.fl_str_mv http://purl.org/coar/resource_type/c_bdcc
description A incidência de doenças ligadas ao sistema nervoso central (SNC) aumenta exponencialmente depois dos 65 anos e o aumento da esperança média de vida vem aumentar a população mundial com mais de 65 anos. Depressões, dor crónica, epilépsia e enxaquecas são algumas condições clínicas (distúrbios do SNC) que apresentam tratamento no entanto, podem ser consideradas excepções perante a maioria dos distúrbios do SNC, que incluem doenças neurodegenerativas e que têm muito poucas opções de tratamento. Alguns destes casos são a doença de Alzheimer, doença de Parkinson, esclerose amiotrófica lateral, esclerosemúltipla, cancro do cérebro, entre outras. O aumento do número de casos com doenças neurodegenerativas veio então aumentar a necessidade de descoberta e desenvolvimento de novos fármacos que combatam e curem estas doenças. Por exemplo, a doença de Alzheimer afecta actualmente 18 milhões de pessoas a nível mundial e estima-se que em 2025 o número de casos chegue aos 34 milhões. Este pequeno grande exemplo demonstra a preocupação e a necessidade de novos fármacos que dêem esperança de cura a estes e muitos outros casos de doenças neurodegenerativas. No entanto, esta é uma tarefa com dificuldades acrescidas face ao desenvolvimento de fármacos com alvos noutras partes do organismo que não o cérebro. O tempo necessário para que um fármaco com alvos no SNC chegue aos mercados pode ir de 12 a 16 anos, enquanto que um fármaco que não actue no SNC vai de 10 a 12 anos. Esta grande diferença prende-se com a complexidade do cérebro, a tendência desses fármacos para causar efeitos secundários e a existência da barreira hemato-encefálica (BHE). A BHE separa o fluído cerebroespinal do sangue em circulação, impedindo a livre passagem da grande maioria das substâncias (mesmo as pequenas moléculas) da corrente sanguínea para o cérebro. De entre estas substâncias encontram-se os fármacos, estimando-se que cerca de 95% destes não consigam atravessar a barreira, deixando-nos apenas uma ínfima parte susceptível de atravessá-la. Isto significa que fármacos que têm efeito terapêutico noutras partes do organismo, são inúteis para alvos no SNC pela baixa permeabilidade da BHE, tornando muito difícil o tratamento de infecções bacterianas e virais no SNC através dos antibióticos convencionais. Muitas das doenças neurodegenerativas apresentadas acima poderiam ser tratadas com fármacos, enzimas ou genes já descobertos, infelizmente estas não conseguem atravessar a BHE. Além desta clara dificuldade imposta pela fisiologia existe ainda outra relacionada com a experimentação. A permeabilidade de um composto na BHE é convencionalmente medida pelo logaritmo do coeficiente de partição sangue-cérebro, tratando-se de uma medida da lipofilicidade. No entanto, a sua aquisição por ensaios experimentais é muito dispendiosa e o processo moroso ainda mais quando estão em análise milhares de compostos. Este processo integra a primeira fase de desenvolvimento de um fármaco que pode demorar até dois anos e em que são analisados, em média, 10000 compostos. São necessários até 16 anos para que um medicamento que actue do SNC chegue aos mercados e seja comercializado, nesse sentido, é objectivo deste trabalho contribuir com metodologias que visem a diminuição do tempo da primeira fase de desenvolvimento de um fármaco e por conseguinte, a diminuição do número de anos final. Para tal entramos no domínio da chamada quimio-informática, uma área na fronteira entre a Química e a Informática, que tenta retirar informação útil contida nos compostos químicos pela utilização e desenvolvimento de sistemas automatizados de recolha e processamento de dados, algoritmos, técnicas computacionais e métodos estatísticos. A utilização desta informação permite estabelecer correlações que só são possíveis com recurso aos computadores, às metodologias computacionais e à inteligência artificial. Estes recursos disseminaram-se fortemente na indústria química e farmacêutica que fazem investigação de novos produtos utilizando no processo métodos computacionais. A procura de metodologias que contribuam e favoreçam o desenvolvimento de novos compostos é emergente havendo uma grande procura de especialistas nesta área. Este trabalho, de forte componente computacional, faz uso de algoritmos de aprendizagem automática para determinar com melhor precisão se um determinado fármaco pode passar a barreira hemato-encefálica. Outros estudos têm-se baseado sobretudo na utilização de metodologias de aprendizagem standard usando como variáveis preditivas propriedades físicas e químicas dos compostos em análise. Neste trabalho utilizam-se descritores e impressões digitais moleculares (fingerprints) para analisar a diversidade estrutural existente num conjunto de compostos permitindo estabelecer medidas de semelhança estrutural entre moléculas e com isso prever o comportamento de um composto ”desconhecido”. Assim, no âmbito do projecto foram desenvolvidas três metodologias baseadas no algoritmo do vizinho mais próximo, nas redes neuronais artificiais e nas Random forests (floresta aleatória). Foram constituídos três conjuntos de dados (conjunto de dados I, conjunto de dados II e conjunto de dados III) com 628 (374 BHE+/254 BHE-), 729 (466 BHE+/263 BHE-) e 950 (466 BHE+/484 BHE-) moléculas, respectivamente. Os dois primeiros algoritmos testados foram o algoritmo do vizinho mais próximo e as redes neuronais, os quais seguem uma mesma lógica baseada no uso das impressões digitais moleculares. A partir destes, são geradas matrizes de similaridade onde é calculada uma medidade de semelhança entre cada par de moléculas. Segue-se a análise em coordenadas principais que reduz a matriz num vector de coordenadas com n dimensões, que são os descritores moleculares destes dois métodos. O algoritmo do vizinho mais próximo foi treinado e testado com o conjunto de dados I e 30 descritores tendo sido aplicada a validação cruzada com o método leave-one-out. Este algoritmo consegue prever correctamente a classificação dos compostos em 81.75%, 76.57% e 79.78% para BHE+ (compostos que passam a BHE), BHE- (compostos que não passam a BHE) e globalidade das duas classes, respectivamente. A metodologia que implementa as redes neuronais também foi treinada com o conjunto de dados I, tendo sido usados 40 descritores moleculares. O modelo foi validado com validação cruzada 5-fold, obtendo-se os valores de 77.16%, 81.45% e 79.68% para BHE+, BHE- e globalidade das duas classes, respectivamente. O modelo das Random Forests foi construído com base em 1051 descritores moleculares, de entre as impressões digitais moleculares foram também utilizados a massa molecular, massa molecular média, número de anéis, número de ligações em anéis e número de ligações possíveis para cada átomo de um subconjunto definido (C, N, O, S, Br, I, Cl, F e Na). Além da utilização de descritores moleculares diferentes dos que têm sido até agora utilizados na literatura, a metodologia apresentada neste trabalho é nova e traz inovação a esta área de desenvolvimento na medida em que faz uso da diferença percentual entre as duas classes de compostos, 5% para BHE+ e 95% BHE-. A maior parte dos estudos analisados na literatura apresentam conjuntos de dados populados maioritariamente por compostos que atravessam a BHE, no entanto esta situação não transparece a realidade. Nesse sentido, neste trabalho foi desenvolvido uma metodologia que efectua amostragens diferenciadas usando uma estratégia de oversampling (sobre-amostragem) nos compostos BHE- para melhor reflectir a realidade de modo a representar 95% de compostos BHEe apenas 5% de compostos BHE+. Os resultados demonstram-se bastante promissores, conseguindo a Random Forest prever correctamente a classificação dos compostos em 92%, 77.2% e 82.6%, para BHE+, BHE- e globalidade das duas classes, respectivamente. Esta metodologia apresenta os melhores resultados, ficando mesmo acima da maior parte dos valores apresentados na literatura. Com estes valores os principais objectivos desta tese são concretizados, tendo sido feito um contributo bastante positivo para a área, principalmente para uma previsão mais correcta da passagem de um composto pela barreia hemato-encefálica, o qual é um ponto chave no desenvolvimento de fármacos para o tratamento de doenças ao nível do SNC, que precisam obrigatoriamente de passar a BHE. Neste trabalho apenas foram apresentadas as três metodologias que se revelaram mais promissoras e com os melhores resultados embora ao longo do projecto tenham sido desenvolvidas e testada outras metodologias. Face aos resultados obtidos é proposta de trabalho futuro a concretização de uma aplicação que implemente a metodologia da Random Forest com vista a que seja um contributo `a Ciência e principalmente `a área de desenvolvimento de novos fármacos, contribuindo para uma análise rápida de grandes bibliotecas de compostos, restringido o leque de compostos com necessária intervenção de ensaios experimentais, diminuindo também o custo associado à investigação de compostos na primeira fase de desenvolvimento de um fármaco.
dirty 0
eu_rights_str_mv openAccess
format masterThesis
fulltext.url.fl_str_mv https://repositorio.ulisboa.pt/bitstreams/be69f0a4-a1dd-4e4c-ae15-e352118c13ac/download
id ul_4c2fec20a172ea8817bc4232f9e2b0cf
identifier.url.fl_str_mv http://hdl.handle.net/10451/4838
instacron_str ul
institution Universidade de Lisboa
instname_str Universidade de Lisboa
language eng
network_acronym_str ul
network_name_str Repositório da Universidade de Lisboa
oai_identifier_str oai:repositorio.ulisboa.pt:10451/4838
organization_str_mv urn:organizationAcronym:ul
person_str_mv Martins, Inês Filipa dos Santos, 1988-
publishDate 2011
reponame_str Repositório da Universidade de Lisboa
repository_id_str urn:repositoryAcronym:ul
service_str_mv urn:repositoryAcronym:ul
spelling engporA incidência de doenças ligadas ao sistema nervoso central (SNC) aumenta exponencialmente depois dos 65 anos e o aumento da esperança média de vida vem aumentar a população mundial com mais de 65 anos. Depressões, dor crónica, epilépsia e enxaquecas são algumas condições clínicas (distúrbios do SNC) que apresentam tratamento no entanto, podem ser consideradas excepções perante a maioria dos distúrbios do SNC, que incluem doenças neurodegenerativas e que têm muito poucas opções de tratamento. Alguns destes casos são a doença de Alzheimer, doença de Parkinson, esclerose amiotrófica lateral, esclerosemúltipla, cancro do cérebro, entre outras. O aumento do número de casos com doenças neurodegenerativas veio então aumentar a necessidade de descoberta e desenvolvimento de novos fármacos que combatam e curem estas doenças. Por exemplo, a doença de Alzheimer afecta actualmente 18 milhões de pessoas a nível mundial e estima-se que em 2025 o número de casos chegue aos 34 milhões. Este pequeno grande exemplo demonstra a preocupação e a necessidade de novos fármacos que dêem esperança de cura a estes e muitos outros casos de doenças neurodegenerativas. No entanto, esta é uma tarefa com dificuldades acrescidas face ao desenvolvimento de fármacos com alvos noutras partes do organismo que não o cérebro. O tempo necessário para que um fármaco com alvos no SNC chegue aos mercados pode ir de 12 a 16 anos, enquanto que um fármaco que não actue no SNC vai de 10 a 12 anos. Esta grande diferença prende-se com a complexidade do cérebro, a tendência desses fármacos para causar efeitos secundários e a existência da barreira hemato-encefálica (BHE). A BHE separa o fluído cerebroespinal do sangue em circulação, impedindo a livre passagem da grande maioria das substâncias (mesmo as pequenas moléculas) da corrente sanguínea para o cérebro. De entre estas substâncias encontram-se os fármacos, estimando-se que cerca de 95% destes não consigam atravessar a barreira, deixando-nos apenas uma ínfima parte susceptível de atravessá-la. Isto significa que fármacos que têm efeito terapêutico noutras partes do organismo, são inúteis para alvos no SNC pela baixa permeabilidade da BHE, tornando muito difícil o tratamento de infecções bacterianas e virais no SNC através dos antibióticos convencionais. Muitas das doenças neurodegenerativas apresentadas acima poderiam ser tratadas com fármacos, enzimas ou genes já descobertos, infelizmente estas não conseguem atravessar a BHE. Além desta clara dificuldade imposta pela fisiologia existe ainda outra relacionada com a experimentação. A permeabilidade de um composto na BHE é convencionalmente medida pelo logaritmo do coeficiente de partição sangue-cérebro, tratando-se de uma medida da lipofilicidade. No entanto, a sua aquisição por ensaios experimentais é muito dispendiosa e o processo moroso ainda mais quando estão em análise milhares de compostos. Este processo integra a primeira fase de desenvolvimento de um fármaco que pode demorar até dois anos e em que são analisados, em média, 10000 compostos. São necessários até 16 anos para que um medicamento que actue do SNC chegue aos mercados e seja comercializado, nesse sentido, é objectivo deste trabalho contribuir com metodologias que visem a diminuição do tempo da primeira fase de desenvolvimento de um fármaco e por conseguinte, a diminuição do número de anos final. Para tal entramos no domínio da chamada quimio-informática, uma área na fronteira entre a Química e a Informática, que tenta retirar informação útil contida nos compostos químicos pela utilização e desenvolvimento de sistemas automatizados de recolha e processamento de dados, algoritmos, técnicas computacionais e métodos estatísticos. A utilização desta informação permite estabelecer correlações que só são possíveis com recurso aos computadores, às metodologias computacionais e à inteligência artificial. Estes recursos disseminaram-se fortemente na indústria química e farmacêutica que fazem investigação de novos produtos utilizando no processo métodos computacionais. A procura de metodologias que contribuam e favoreçam o desenvolvimento de novos compostos é emergente havendo uma grande procura de especialistas nesta área. Este trabalho, de forte componente computacional, faz uso de algoritmos de aprendizagem automática para determinar com melhor precisão se um determinado fármaco pode passar a barreira hemato-encefálica. Outros estudos têm-se baseado sobretudo na utilização de metodologias de aprendizagem standard usando como variáveis preditivas propriedades físicas e químicas dos compostos em análise. Neste trabalho utilizam-se descritores e impressões digitais moleculares (fingerprints) para analisar a diversidade estrutural existente num conjunto de compostos permitindo estabelecer medidas de semelhança estrutural entre moléculas e com isso prever o comportamento de um composto ”desconhecido”. Assim, no âmbito do projecto foram desenvolvidas três metodologias baseadas no algoritmo do vizinho mais próximo, nas redes neuronais artificiais e nas Random forests (floresta aleatória). Foram constituídos três conjuntos de dados (conjunto de dados I, conjunto de dados II e conjunto de dados III) com 628 (374 BHE+/254 BHE-), 729 (466 BHE+/263 BHE-) e 950 (466 BHE+/484 BHE-) moléculas, respectivamente. Os dois primeiros algoritmos testados foram o algoritmo do vizinho mais próximo e as redes neuronais, os quais seguem uma mesma lógica baseada no uso das impressões digitais moleculares. A partir destes, são geradas matrizes de similaridade onde é calculada uma medidade de semelhança entre cada par de moléculas. Segue-se a análise em coordenadas principais que reduz a matriz num vector de coordenadas com n dimensões, que são os descritores moleculares destes dois métodos. O algoritmo do vizinho mais próximo foi treinado e testado com o conjunto de dados I e 30 descritores tendo sido aplicada a validação cruzada com o método leave-one-out. Este algoritmo consegue prever correctamente a classificação dos compostos em 81.75%, 76.57% e 79.78% para BHE+ (compostos que passam a BHE), BHE- (compostos que não passam a BHE) e globalidade das duas classes, respectivamente. A metodologia que implementa as redes neuronais também foi treinada com o conjunto de dados I, tendo sido usados 40 descritores moleculares. O modelo foi validado com validação cruzada 5-fold, obtendo-se os valores de 77.16%, 81.45% e 79.68% para BHE+, BHE- e globalidade das duas classes, respectivamente. O modelo das Random Forests foi construído com base em 1051 descritores moleculares, de entre as impressões digitais moleculares foram também utilizados a massa molecular, massa molecular média, número de anéis, número de ligações em anéis e número de ligações possíveis para cada átomo de um subconjunto definido (C, N, O, S, Br, I, Cl, F e Na). Além da utilização de descritores moleculares diferentes dos que têm sido até agora utilizados na literatura, a metodologia apresentada neste trabalho é nova e traz inovação a esta área de desenvolvimento na medida em que faz uso da diferença percentual entre as duas classes de compostos, 5% para BHE+ e 95% BHE-. A maior parte dos estudos analisados na literatura apresentam conjuntos de dados populados maioritariamente por compostos que atravessam a BHE, no entanto esta situação não transparece a realidade. Nesse sentido, neste trabalho foi desenvolvido uma metodologia que efectua amostragens diferenciadas usando uma estratégia de oversampling (sobre-amostragem) nos compostos BHE- para melhor reflectir a realidade de modo a representar 95% de compostos BHEe apenas 5% de compostos BHE+. Os resultados demonstram-se bastante promissores, conseguindo a Random Forest prever correctamente a classificação dos compostos em 92%, 77.2% e 82.6%, para BHE+, BHE- e globalidade das duas classes, respectivamente. Esta metodologia apresenta os melhores resultados, ficando mesmo acima da maior parte dos valores apresentados na literatura. Com estes valores os principais objectivos desta tese são concretizados, tendo sido feito um contributo bastante positivo para a área, principalmente para uma previsão mais correcta da passagem de um composto pela barreia hemato-encefálica, o qual é um ponto chave no desenvolvimento de fármacos para o tratamento de doenças ao nível do SNC, que precisam obrigatoriamente de passar a BHE. Neste trabalho apenas foram apresentadas as três metodologias que se revelaram mais promissoras e com os melhores resultados embora ao longo do projecto tenham sido desenvolvidas e testada outras metodologias. Face aos resultados obtidos é proposta de trabalho futuro a concretização de uma aplicação que implemente a metodologia da Random Forest com vista a que seja um contributo `a Ciência e principalmente `a área de desenvolvimento de novos fármacos, contribuindo para uma análise rápida de grandes bibliotecas de compostos, restringido o leque de compostos com necessária intervenção de ensaios experimentais, diminuindo também o custo associado à investigação de compostos na primeira fase de desenvolvimento de um fármaco.The increasing number of cases with neurodegenerative diseases has increased the need to discover and develop new drugs to combat and cure these diseases. However, this is a difficult task due to the existence of the blood-brain barrier (BBB), which prevents the free passage of most substances from the bloodstream to the brain. Drugs are among these substances and it is estimated that about 95% of these fail to cross the barrier, leaving us only a small fraction likely to cross it. Besides this clear difficulty imposed by physiology, logBB (blood-brain permeation coefficient), a coefficient used to measure the ability of a compound to cross the BBB, is difficult to acquire by experimental process, being very expensive and time consuming even more when there are thousands of compounds under analysis. This process includes the first phase of developing a drug that can take up to two years and could have in analysis an average of ten thousands compounds. Thus, one of the objectives is to contribute with methodologies to improve current methodologies for in silico compound pre-screening, so that a reasonable level of confidence in the effectiveness of an unknown molecule passing the BBB can be ascertained. This work has a strong computational component and makes use of state-of-the-art machine learning algorithms, namely the k-nearest neighbor algorithm, neural networks and random forests to determine more accurately whether a particular drug can pass the BBB. Molecular descriptors and molecular fingerprints are used to examine the structural diversity existing in a number of compounds allowing to establish measures of structural similarity between molecules and thereby predict the behavior of an ”unknown” compound. The methodology that uses random forests provides the best results, predicting correctly the classification of compounds in 92%, 77.2% and 82.6%, referring these values to BBB+, BBB- and overall accuracies, respectively. Results achieved are on par and even slighlty better compared to current results described in literature.application/pdfporMachine learning algorithms to predict blood-brain barrier permeability of drug moleculesMartins, Inês Filipa dos Santos, 1988-Falcão, André Osório e Cruz de AzerêdoHostingInstitutionOrganizationalRepositório Científico de Acesso Aberto da ULisboae-mailmailto:repositorio@reitoria.ulisboa.ptrepositorio@reitoria.ulisboa.pt2012-01-06T15:26:44Z20112011-01-01T00:00:00ZHandlehttp://hdl.handle.net/10451/4838http://purl.org/coar/access_right/c_abf2open accessBioinformáticaNeurobiologiaTeses de mestrado - 20112234495 bytesliteraturehttp://purl.org/coar/resource_type/c_bdccmaster thesishttp://purl.org/coar/access_right/c_abf2application/pdffulltexthttps://repositorio.ulisboa.pt/bitstreams/be69f0a4-a1dd-4e4c-ae15-e352118c13ac/download
spellingShingle Machine learning algorithms to predict blood-brain barrier permeability of drug molecules
Martins, Inês Filipa dos Santos, 1988-
Bioinformática
Neurobiologia
Teses de mestrado - 2011
status SINGLETON
subject.fl_str_mv Bioinformática
Neurobiologia
Teses de mestrado - 2011
title Machine learning algorithms to predict blood-brain barrier permeability of drug molecules
title_full Machine learning algorithms to predict blood-brain barrier permeability of drug molecules
title_fullStr Machine learning algorithms to predict blood-brain barrier permeability of drug molecules
title_full_unstemmed Machine learning algorithms to predict blood-brain barrier permeability of drug molecules
title_short Machine learning algorithms to predict blood-brain barrier permeability of drug molecules
title_sort Machine learning algorithms to predict blood-brain barrier permeability of drug molecules
topic Bioinformática
Neurobiologia
Teses de mestrado - 2011
topic_facet Bioinformática
Neurobiologia
Teses de mestrado - 2011
url http://hdl.handle.net/10451/4838
visible 1