Document details

Cell biology informatics: two informatic tools for the study of evolutionary cell biology

Author(s): Cadete, Filipe Bernardes da Silva Tavares

Date: 2009

Persistent ID: http://hdl.handle.net/10451/3965

Origin: Repositório da Universidade de Lisboa

Subject(s): Evolução em eucariotas; Anotação automática de proteínas; Proteínas rab; Manipulação de sequências; Anotação manual de imagens; Centríolos; Desenvolvimento de interfaces web de bases de dados; Teses de mestrado - 2009


Description

Tese de mestrado, Tecnologias de Informação aplicadas às Ciências Biológicas e Médicas, Universidade de Lisboa, Faculdade de Ciências, 2009

A capacidade de processar e relacionar vastas quantidades e vários tipos de dados é uma das vantagens que as tecnologias de informação e comunicação (TIC) trazem à biologia. Esta capacidade torna-se ainda mais importante quando está em causa o estudo da evolução de sistemas intra-celulares complexos, já que este só se torna possível ao contextualizar correctamente informação de diversos tipos (molecular, morfológica e taxonómica, por exemplo). Neste projecto aplicaram-se TIC na construção de recursos que possibilitam o estudo da evolução de duas características de Eucariotas: o sistema de transporte vesicular e centríolos. No ambiente compartimentalizado que é uma célula eucariota, o sistema de transporte vesicular permite a movimentação de diferentes cargas de um compartimento para outro, incluindo do interior para o exterior da célula e vice-versa. Este sistema está presente, de forma mais ou menos complexa, em todos os eucariotas, pelo que se assume que também esteve presente no último ancestral que estes têm em comum. Desde então adaptou-se aos diferentes estilos de vida e necessidades do eucariotas actuais. Para o estudo da evolução do sistema de transporte vesicular é necessário conhecer os perfis filogenéticos dos seus componentes, isto é, é necessário saber em que organismos estes componentes estão presentes ou ausentes. As proteínas do tipo rab são reguladores centrais deste sistema. O objectivo deste trabalho é a identificação e classificação desta família de proteínas num vasto número de organismos que cubram, na medida do possível, a diversidade existente em Eucariotas e a disponibilização destes resultados para a comunidade. Para cumprir este objectivo, foram utilizadas técnicas de aprendizagem automática e de manipulação de sequências para construir uma ferramenta de anotação automática de rabs. Esta ferramenta, apelidada de Rabifier, actua da seguinte forma: _ selecção de sequências candidatas através da sua semelhança com um conjunto discriminante de proteínas rab e não-rab. A semelhança é medida recorrendo á ferramenta de alinhamento local BLAST; _ confirmação das sequências candidatas através da utilização da ferramenta de detecção de motivos lineares MEME/MAST para identificar motivos específicos das rabs; _ utilização de clustering para determinar se novas subfamílias devem ser criadas; _ classificação de sequências candidatas numa subfamília através de modelos representativos de conjuntos de sequências utilizando as ferramentas Psi-BLAST e RPS-BLAST; _ marcação automática dos resultados obtidos como sendo de confiança ou não. Seguiu-se uma verificação manual das sequências marcadas como não sendo de confiança. No final, de um total de 3058867 sequências de 182 organismos, foram identificadas mais de cinco mil sequências em 182 organismos. O conjunto destes dados permitiu uma análise preliminar de características particulares de proteínas rabs e a predição do conjunto de rabs do ancestral comum dos eucariotas. Os resultados obtidos foram disponibilizados no website TrafficDB (http://www.igc.pt/trafficdb) Este foi desenvolvido utilizando um back-end escrito em Python com base na web framework Django. A presença de citoesqueleto é outra característica que distingue eucariotas de procariotas. O citoesqueleto é composto por filamentos de actina, filamentos intermédios e microtúbulos. Estes últimos podem criar estruturas do tipo centriolar que são responsáveis por processos essenciais ao bom funcionamento da célula. Por exemplo, o centrosoma actua na segregação de cromossomas durante a divisão celular e tem no seu âmago um par de centríolos. Outras estruturas deste tipo incluem flagelos e cílios, que nucleiam protusões da membrana celular e permitem à célula mover-se ou sentir o ambiente envolvente. Estruturas centriolares aparecem em todos os principais grupos de eucariotas. Assim, como o sistema de transporte vesicular, postula-se que tenham origem num ancestral comum a todos os eucariotas. Mais uma vez, o estudo da evolução de uma estrutura ancestral poderá conduzir a uma melhor compreensão dos sistemas biológicos actuais. Há descrições de variações do esquema de organização destas estruturas, mas esta variabilidade, essencial para um estudo aprofundado da sua evolução, não se encontra catalogado nem centralizado. O objectivo deste trabalho é a criação de uma interface web, chamada CentrioleDB, para a anotação de imagens de microscopia electrónica de estruturas centriolares. Esta anotação é feita manualmente utilizando um dicionário controlado desenvolvido por especialistas no estudo destas estruturas. Para além de possibilitar a anotação de imagens, a CentrioleDB também permite a visualização de imagens já anotadas num contexto taxonómico e molecular. Um utilizador pode rapidamente descobrir em que organismos é que uma determinada estrutura aparece, que proteínas foram experimentalmente mapeadas nessa estrutura e quais os seus ortólogos. Esta é a primeira fase de um projecto de colaboração com grupos ligados à comunidade centriolar. À medida que os dados de anotação ficam mais completos, poderemos comparar perfis de estruturas e moléculas e fazer previsões sobre que moléculas têm funções relacionadas com estas estruturas. A implementação da CentrioleDB foi feita utilizando uma base de dados relacional e a web framework Django. Foi necessário desenvolver: _ uma estrutura de base de dados que aceite facilmente mudanças e acrescentos ao dicionário controlado de anotação, uma vez que este encontra-se em permanente desenvolvimento e actualização por peritos na área. _ um backend que lida com o upload de ficheiros de imagens e mantém a ligação entre estas e as respectivas anotações. _ uma interface que permita a anotação e a visualização de informação de uma forma intuitiva para o utilizador. Neste momento a CentrioleDB encontra-se em funcionamento em http://www.igc.pt/centrioledb e disponível a um grupo restrito de utilizadores por razões de copyright. As duas ferramentas aqui descritas têm em comum o facto de propiciarem às respectivas comunidades um local dedicado ao estudo da evolução dos respectivos sistemas. A integração de informação relevante com taxonomia contextualiaza-a de uma forma que facilita uma visão global e abrangente da evolução destes sistemas essenciais a todos os eucariotas.

The ability to associate and process a vast amount and various types of data is an advantage that information and communication technologies bring to biology. However, most bioinformatics either focus solely on evolution, and we call it phylogenetics, or ignores the evolutionary history of its object of study. In this Project these technologies were used to build resources to facilitate the study of the evolution of two Eukaryote defining characteristics, the vesicular trafficking system and centrioles, by integrating familiar or hitherto unexplored types of data (sequences and electron microscopy images, respectively) with taxonomic information so as to give the data a context from which evolutionary studies of complex systems can be achieved. To study the evolution of the vesicular tra_cking system it's necessary to know the phylogenetic profiles of it's components, which is to say the organisms in which the components are present or absent. Rab proteins are central regulators of this system. One of the objectives of this work is the identi_cation and classification of this protein family in a vast number of organisms that cover, as far as possible, the diversity in Eukaryotes and to make these results available to community. To this end, machine learning and sequence manipulation techniques were used, leading to the identi_cation of more than five thousand sequences in 182 species. The identified sequences are available on the TrafficDB website (http://www.igc.pt/trafficdb). The work developed to facilitate the study of centrioles consisted mainly on the development of an online interface for the annotation and storage of electron microscopy images and of a controlled vocabulary to facilitate this annotation. This interface, CentrioleDB, has the final objective of cataloguing the different morphologies that centriolar structures can have. It was implemented using a relational database and the Django web framework. At this moment it is functioning at http://www.igc.pt/centrioledb and available to a restricted set of users due to copyright reasons. The two works developed here use different techniques to obtain their data. The one dealing with rab proteins is based on automatic sequence annotation while the one dealing with centrioles is based on tools for the manual annotation on images. Where they cross is in their final purpose, the study of evolution of complex systems, and in the way the data is presented to the public, always with an eye on evolution, using taxonomy as its proxy.

Document Type Master thesis
Language English
Advisor(s) Falcão, André Osório e Cruz de Azerêdo; Leal, José Bártholo Pereira
Contributor(s) Repositório da Universidade de Lisboa
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents