Document details

Search for coherent gene modules that predict streptococcus pneumoniae strain invasiveness

Author(s): Catarino, Rui Ribeiro

Date: 2012

Persistent ID: http://hdl.handle.net/10451/9083

Origin: Repositório da Universidade de Lisboa

Subject(s): Bioquímica; Teses de mestrado - 2012


Description

O Streptococcus pneumoniae, também chamado pneumococcus, é uma bactéria grampositiva do subgrupo alfa-hemolítico do género Streptococcus. É um colonizador frequente do trato respiratório superior humano e embora possa ser encontrado em qualquer pessoa, tem maior prevalência em crianças e idosos. A colonização decorre tipicamente sem causar sintomas, mas pode por vezes culminar na invasão de outros tecidos e provocar doenças como pneumonia, meningite ou otite do ouvido médio. Sem tratamento, a infeção com pneumococcus tem uma taxa de mortalidade da ordem dos 30 por cento mas, atualmente, com o uso de antibióticos e vacinas, este número é muito mais reduzido. Contudo, a resistência a antibióticos tem vindo a ser reconhecida em pneumococcus e a vacinação, mais do que reduzir o número de doenças provocadas por pneumococcus, tem conduzido à substituição das estirpes que as originam. Por estes motivos, torna-se urgente entender o mecanismo de invasão e virulência do pneumococcus para que novas formas de combate a este patógeneo possam tomar forma. Como em muitos outros organismos que habitam meios de composição pouco variável, na maioria patógenos, o pneumococcus tem um genoma reduzido. O genoma apresenta grande plasticidade, variando cerca de 10 por cento entre estirpes e contem apenas 60 a 80 por cento de genes mantidos em todas as estirpes. A totalidade dos genes do pneumococcus, o pangenoma, é consideravelmente mais vasto que o genoma de qualquer estirpe e juntamente com a capacidade de trocar genes entre a própria espécie, ou por vezes com espécies próximas, confere a esta bactéria uma grande adaptabilidade e resposta rápida a mudanças no seu meio ambiente. A transferência de genes horizontal é de facto uma idiossincrasia do pneumococcus e é, por vezes, acompanhada pela indução de morte de células da mesma espécie para que estas libertem DNA. Este fenómeno, conhecido como fratricídio, acontece quando a célula entra num estado de competência, também chamado estado X. O segundo nome foi proposto por ser mais abrangente, evitando que o estado fosse apenas associado à competência. Neste estado, o perfil de transcrição da bactéria é globalmente alterado e além de expressar genes que promovem a competência, expressa também bacteriocinas tóxicas para as células vizinhas e proteínas que protegem a própria célula dessas bacteriocinas. A facilidade de incorporação de DNA de outras células contribui significativamente para a sobrevivência da bactéria. A resistência à penicilina, por exemplo, é conferida por genes que foram adquiridos de uma espécie próxima, o Streptococcus Mitis. A invasividade e virulência do pneumococcus varia de estirpe para estirpe e é função do conteúdo génico. A bactéria está especialmente adaptada para colonizar, visto passar a maior parte do tempo na nasofaringe e que o principal meio de transmissão ocorre por aerossol e quase exclusivamente durante a colonização. Embora não exista consenso sobre o motivo desta adaptação, é consensual que algumas estirpes são mais aptas para a invasão de outros tecidos e, consequentemente, causar doença. Entre os determinantes de virulência, o mais estudado é a cápsula polisacarídica ou serótipo. São conhecidos mais de 90 serótipos que diferem em estrutura e composição, mas apenas pouco mais de vinte estão associados a doença. A cápsula é um dos mais importantes mecanismos de defesa contra o sistema imunitário humano, já que, além de cobrir grande parte dos epítopos que seriam facilmente reconhecíveis, ainda inibe o sistema do complemento. Vários outros determinantes têm vindo a ser identificados mas o contexto genético tem sido descurado. Alguns dos genes associados com virulência numa estirpe, foram associados com colonização noutra, evidenciando a relevância das interações entre genes. A noção de que a invasividade pode ser conferida por interação entre genes complexifica tanto a busca de determinantes, como os próprios determinantes. É possível identificar determinantes de invasividade procurando diferenças entre grupos de estirpes invasivas e grupos de estirpes colonizadoras. Estas diferenças podem ocorrer em diferentes níveis como o conteúdo génico ou a sua expressão. Dada a grande variabilidade do genoma do pneumococcus, é expectável encontrar determinantes de invasividade ao nível do conteúdo génico. Estas diferenças podem ser detetadas em larga escala por ensaios de microarrays de Hibridação Genómica Comparativa. É importante notar que esta abordagem é observacional e que, portanto, os resultados permitem apenas estabelecer correlações e não relações de causa efeito. Em contrapartida, permite observar múltiplas interações com diferentes backgrounds genéticos e a interação entre diferentes determinantes. Desta maneira, esta abordagem encaixa-se no paradigma da biologia de sistemas, visto estudar não só os genes individualmente, mas antes em interação com os demais. A procura de determinantes que distingam estirpes invasivas de estirpes colonizadoras é um problema de classificação, uma área da aprendizagem supervisionada. Existem já muitos algoritmos desenhados para resolver este tipo de problema. Tipicamente, o sucesso destes algoritmos é avaliado pela sua capacidade de classificar corretamente as estirpes a partir dos seus genótipos. Entre outros, algoritmos como as redes neuronais são conhecidos por uma elevada exatidão de classificação. No entanto, o foco deste trabalho não é a exatidão de classificação mas antes a compreensão dos mecanismos que conduzem à invasividade. Grande parte dos algoritmos existentes resultam num conjunto de regras difíceis de interpretar e ainda mais de traduzir para um nível biológico, em especial se considerarmos que as estirpes invasivas podem ser um grupo heterogéneo com diferentes mecanismos de invasividade. Por este motivo, surgiu a necessidade de desenhar um novo algoritmo que foque primordialmente identificar determinantes de invasividade. A procura de determinantes que tenham em conta a interação de genes constitui um problema computacional acrescido. A busca de múltiplos genes, módulos de genes, que constituam um determinante transforma-se num problema combinatorial em que o número de possibilidades aumenta exponencialmente com o número de genes. Para evitar uma busca exaustiva de todas as combinações, o algoritmo usa informação sobre interações entre os genes que podem ser de cariz metabólico, regulatório, físico, entre outros, mas que podem ser facilmente descritas num formato comum – as redes. As redes têm a vantagem de expressarem facilmente padrões de interações complexos e de serem manipuláveis e pesquisáveis computacionalmente. Os dados usados neste trabalho resultam de um estudo de microarray de Hibridação Genómica Comparativa com 72 estirpes que usou como controlos as estirpes Tigr4, G54 e R6. Estas estirpes foram previamente classificadas como invasivas, neutras ou colonizadoras, de acordo com a frequência com que foram identificadas em indivíduos saudáveis ou em indivíduos portadores de doença. A presença ou ausência dos genes nas estirpes foi organizado numa matriz denominada matriz de presença génica. As estirpes neutras não foram incluídas na matriz por terem um cariz incerto. A classificação de uma estirpe como neutra pode dever-se tanto a motivos biológicos como à insuficiência de poder estatístico para a classificar como invasiva ou colonizadora. Não foi usada uma rede de interações de genes mas sim uma matriz de distância que avalia a coocorrência e a coinvasidade. A coocorrência é um parâmetro que avalia a frequência com que dois genes estão presentes individualmente comparativamente com a frequência com que estão presentes em conjunto. A coinvasidade é um parâmetro que avalia a semelhança de associação de cada um dos genes com a invasividade. Esta associação é medida usando um teste estatístico de Fisher. Juntos, estes parâmetros asseguram que dois genes com uma baixa distância são genes que coocorrem frequentemente e que têm uma associação com a invasividade semelhante. A matriz de distâncias é usada para criar módulos de genes que serão depois avaliados. Os módulos são criados a partir de um gene semente, ao qual são gradualmente adicionados mais genes. O gene adicionado é sempre o gene com menor distância ao gene semente. Os módulos de genes são inicialmente avaliados quanto à sua presença dos seus genes em estirpes invasivas e colonizadoras através de um teste de runs. Este teste avalia se a distribuição das presenças pelas classes de estirpes é significativa ou se pode ser considerada aleatória, caso em que o módulo é abandonado. De seguida é definido um número de genes, limite, acima do qual o módulo é considerado presente numa estirpe. Este limite é definido de forma a que o módulo esteja presente exclusivamente em estirpes invasivas. Se tal limite não existir o módulo é abandonado. Caso tenha sido possível estabelecer um limite, é avaliada a significância do mesmo. Para tal é usado um teste unilateral que calcula a probabilidade do limite ter sido fixado com um valor tão ou mais baixo. Caso o limite não tenha significância estatística de 0.05 o módulo é abandonado. Dado o método de formação dos módulos, é possível que nem todos os genes contribuam para a associação do módulo com a invasividade. Para eliminar essas situações é avaliada a associação individual de cada gene com as estirpes em que o módulo está presente usando um teste de Fisher. Os genes que não estiverem associados são eliminados do módulo. Após a remoção de genes o limite é recalculado e a sua significância é reavaliada. Terminado este passo, é selecionado apenas um módulo de entre os módulos criados a partir do mesmo gene semente. O módulo selecionado é aquele que for constituído pelo maior número de genes. Por fim realizou-se uma correção para testes múltiplos que estabeleceu a taxa de descobertas falsas em 5 por cento. Este passo eliminou todos os módulos com menos de 24 genes. De todo este processo resultaram 26 módulos significantes pelos padrões estatísticos exigidos e que estão presentes exclusivamente nas estirpes invasivas. Embora os módulos sejam distintos, existe grande sobreposição entre eles. É possível observar submódulos que surgem repetidos em vários módulos e que eram possivelmente módulos por si, tendo sido eliminados pela correção por testes múltiplos. Para cada módulo, observou-se que a presença dos seus genes está correlacionada com o rácio de probabilidade da invasividade das estirpes. Esta correlação observa-se mesmo para as estirpes neutras, ainda que estas não tenham sido usadas como input no algoritmo. Embora as classes invasiva e colonizadora tenham sido usadas pelo algoritmo, os dados dos seus rácios de probabilidade de invasividade não foram. Em conjunto, os módulos usam um total de 111 genes e, usados em conjunto, é possível encontrar uma correlação semelhante. A correlação dos módulos, individualmente e em conjunto, com os rácios de probabilidade de invasividade e com as estirpes neutras é um resultado positivo que suporta a relevância e autenticidade destes módulos como determinantes de invasividade. Os módulos são robustos contra pequenas alterações na matriz de presença de genes. A experiência de microarray a partir da qual os dados foram originados tem um erro inerente e esta alta robustez confere confiança na autenticidade dos resultados do algoritmo, mostrando que dificilmente são consequência de erros do microarray. A existência de um limite para definir presença de módulos, por oposição à exigência de presença de todos os genes em simultâneo, pode ser uma fonte de robustez contra perturbações nos perfis de presença dos genes. Não foi encontrado enriquecimento de funções entre os genes selecionados pelo algoritmo nem entre os módulos. O enriquecimento das funções foi avaliado usando a anotação do JCVI. Apesar de não se ter verificado enriquecimento funcional usando a anotação da base de dados do JCVI, alguns genes têm claramente relações funcionais. O nrdD codifica um ribozima que é ativado pelo nrdG. Os genes Argh e ArgG codificam enzimas que catalisam reações sequenciais que constituem uma via alternativa da síntese da arginina. O enzima manitol-1-fosfato desidrogenase (mTLD) utiliza como substrato o manitol-1-fosfato, que é o produto do transporte de manitol pelo sistema PTS (MTLA e mtlF). O RuvB tem a sua atividade como estimulador de recombinação facilitada pela presença da proteína de ligação de DNA de cadeia simples ssb. Um transportador ABC requer a presença de vários componentes que foram selecionados pelo algoritmo, tais como módulos de ligação ao ATP (ou NBDs) e permeases transmembrananares. A ação da aquaporina Z (aqpZ) tem levantado dúvidas na comunidade científica, já que a sua ação parece conduzir ao acumular de pressão de turgescência celular excessiva. O canal mecanosensível largo (MsCl) proporciona uma resposta eficaz para a pressão de turgescência e pode ser um contrapartida biológica da aqpZ. Poliaminas, como a espermidina e norespermidina, têm sido relatadas como possíveis substitutos da colina e são, por conseguinte, intervenientes importantes na estrutura da parede celular e possivelmente na ligação a proteínas que se ligam a colina. A maioria dos genes selecionados foi previamente associada com a invasão ou tem alguma conexão plausível com os mecanismos de invasão. Proteínas da cápsula e proteínas que ligam colina desempenham um papel importante na proteção contra as defesas do hospedeiro. São importantes na inibição da ação do sistema imunitário, nomeadamente pela remoção das proteínas do complemento, ou pela ligação ao fator H, que é um inibidor do complemento. Vários elementos genéticos móveis foram identificados dentro ou perto do locus dos genes da cápsula e tem sido relatado o impacto destes elementos na regulação da transcrição de vários genes desse locus. A invasão de novos tecidos requer uma adaptação rápida a um ambiente novo, tanto às suas propriedades físicas como à disponibilidade de nutrientes. Foram selecionados genes de resposta a mudanças da pressão osmótica que parecem mais dirigidos a uma resposta rápida a grandes alterações da pressão do que à regulação fina da pressão e são, portanto, de particular interesse na adaptação a novos meios. Genes de resposta anaeróbica como o nrdD e o seu ativador, nrdG, dificilmente são funcionais na nasofaringe, uma vez que são estritamente anaeróbicos. No interior do organismo humano contudo, a concentração de oxigénio é reduzida, uma vez que este está quase sempre ligado a moléculas biológicas como a hemoglobina. Nestas circunstâncias o nrdD pode ser crucial para manter as funções dos enzimas aeróbios equivalentes. A capacidade de utilizar diferentes fontes de energia e de carbono é de extrema importância para a invasividade de uma estirpe. O elevado número de transportadores de açúcar está relacionado com a capacidade das estirpes invasivas sobreviverem em meios de variadas composições. Na mesma lógica, alguns genes foram selecionados que codificam para enzimas do metabolismo de diferentes açúcares, aumentando também a adaptabilidade da estirpe a diferentes meios. Genes de proteólise estão provavelmente relacionadas com as necessidades nutricionais de aminoácidos. A síntese de proteínas é um processo constante em todas as bactérias e exige uma disponibilidade permanente de aminoácidos e tRNA. Foram selecionados genes de síntese de aminoácidos que proporcionam vias alternativas para a síntese de aminoácidos, utilizando substratos alternativos. O algoritmo também selecionou genes ligados à síntese e ligação de tRNA ao aminoácido correspondente. Estes enzimas não foram caracterizados em Streptococcus pneumoniae e é difícil prever a sua influência na síntese proteica. Por fim, a grande heterogeneidade dos genomas do pneumococcus advém da sua capacidade de recombinação. Alguns dos genes selecionados pelo algoritmo promovem a heterogeneidade do genoma, aumentando a recombinação com o DNA extracelular. Entre os genes selecionados é promovida a internalização de DNA, a sua estabilização e a recombinação com DNA não homólogo. O estado de competência do pneumococcus é acompanhado por uma apetência para induzir a apoptose em células vizinhas, aumentando a concentração de fragmentos de DNA no meio. Várias bacteriocinas foram associadas por este trabalho à invasividade, bem como genes que inibem a apoptose da própria célula. Esses genes dão à célula uma vantagem natural na competição com outros colonizadores. Em suma, alcançou-se o objetivo pretendido de encontrar determinantes de invasividade. Estes determinantes são fruto de um estudo observacional e é portanto de notar que a relação que têm com a invasividade é apenas de correlação. Para determinar o impacto que estes módulos de genes têm na invasividade é necessário realizar estudos laboratoriais que averiguem em maior detalhe a função biológica dos genes e a sua relação com os mecanismos de invasão.

Streptococcus pneumonia is a pathogenic bacterium responsible for several human diseases, such as pneumonia, meningitis and sepsis. Any pneumococcal disease is preceded by an asymptomatic colonization stage in the human nasopharynx. The transition from colonization to invasion is known to depend on both human and pathogen factors. This work aims to computationally identify pneumococcal genetic factors that influence the likelihood of invasion events. For this purpose, we analyze microarray based comparative genomic hybridization data of 72 strains of pneumococcus. Each strain was classified as Invasive, Neutral or Colonizer according to a previous study that compared the frequencies with which strains were recovered from an asymptomatic carrier or from invasive disease episodes. We propose to select genes that, individually or in a coordinated way, affect the frequency of invasion transitions among all colonization events, which we denominate as invasiveness. To detect coordinated sets of genes, we developed a method that uses networks of known interactions between genes to find gene modules that predict invasiveness. Each module is founded with a single gene and then grown with its closest neighbors in the network. Each module is then evaluated for its predictive power, statistical significance and robustness to data variability. We tested the method with a network based on a distance score that integrates gene co‐occurrence and co‐invasiveness. Among others functions, the found modules implicate cell envelope, transport, sugar metabolism, osmotic response, aminoacid synthesis, spermidine synthesis and proteolysis functions in pneumococcal invasiveness.

Tese de mestrado em Bioquímica, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2012

Document Type Master thesis
Language English
Advisor(s) Pinto, Francisco
Contributor(s) Catarino, Rui Ribeiro
facebook logo  linkedin logo  twitter logo 
mendeley logo