Document details

Bioinformatics application for analysis and visualisation of alternative splicing in cancer

Author(s): Agostinho, Nuno Daniel Saraiva

Date: 2016

Persistent ID: http://hdl.handle.net/10451/25333

Origin: Repositório da Universidade de Lisboa

Subject(s): Bioinformática; Cancro; Splicing alternativo; Visualização; Trabalhos de projecto de mestrado - 2016; Departamento de Informática


Description

Trabalho de projecto de mestrado, Informática, Universidade de Lisboa, Faculdade de Ciências, 2016

A evolução das tecnologias de processamento de dados tem permitido avanços significativos na área das ciências da vida. As melhorias na quantidade e na qualidade dos dados disponíveis para análises biológicas têm proporcionado o estudo em larga escala de diversos processos biológicos. O splicing alternativo é um mecanismo molecular que contribui significativamente para a criação de proteínas com funções distintas a partir do mesmo gene. Encontrando-se este processo envolvido no controlo de muitos mecanismos celulares, a sua desregulação pode promover a progressão de um vasto leque de doenças. Por exemplo, existem associações descritas entre alterações de splicing alternativo e a maioria das características de cancro (como evasão ao sistema imunitário e crescimento celular autosustentado). Estas associações podem ser analisadas através de dados disponíveis online, como a partir dos dados do The Cancer Genome Atlas (TCGA) que incluem dados clínicos e do perfil molecular de pacientes humanos com diversos tipos de tumores. A análise e interpretação correcta dos resultados requer competências multi-disciplinares em biologia, estatística e informática. Como nem todos os cientistas das ciências da vida se sentem confortáveis a utilizar ferramentas com uma interface baseada em linha de comandos, vários programas com uma interface gráfica têm emergido para auxiliar na quantificação, análise e visualização de dados biológicos. As análises também podem ser facilitadas através da utilização de dados previamente processados que estão disponíveis publicamente para casos comuns de utilização, evitando-se o processamento dispendioso de dados a nível de tempo e aliviando também a carga na largura de banda relativamente à transferência de dados brutos. Infelizmente, as ferramentas existentes para a análise de splicing alternativo focam-se primariamente na sua quantificação ou apresentam funcionalidades limitadas para a análise subsequente dos eventos de splicing alternativo. Além disso, muitos programas que quantificam o splicing alternativo utilizam dados brutos e não tiram partido dos dados processados disponíveis de fontes públicas como os dados do TCGA. Assim sendo, existe a necessidade de criar um programa interactivo e fácil de usar que se dedique à análise subsequente dos dados para auxiliar tanto na exploração como no estudo diferencial de dados do splicing alternativo, permitindo assim a potencial descrição de novos mecanismos envolvidos na progressão de doenças. Ademais, a integração da informação clínica associada (ausente na maioria dos programas disponíveis) poderá ajudar na identificação de factores de prognóstico e de alvos terapêuticos. Todos os membros do laboratório de Biologia Computacional do Instituto de Medicina Molecular (Faculdade de Medicina da Universidade de Lisboa) são partes interessadas (stakeholders) no projecto, já que apoiam o desenvolvimento do programa e serão utilizadores finais deste. O grupo efectua diariamente muitas das análises e visualizações incorporadas no projecto, tendo ajudado no seu desenvolvimento ao examinar os detalhes de cada análise. Para o desenvolvimento de uma ferramenta útil, os requisitos necessários foram comunicados pelas partes interessadas ao longo de várias reuniões. Acordou-se que a aplicação se deve focar em obter dados a partir de fontes online (como do TCGA), processar, carregar e manipular os dados na aplicação, quantificar splicing alternativo e analisar estatisticamente os dados disponíveis (por exemplo, análise de sobrevivência, componentes principais e diferencial de splicing), incluindo funcionalidades para criar e editar grupos baseados nos dados clínicos e para gravar os resultados obtidos (conforme apropriado). Outras características de interesse incluem a capacidade de adicionar novos repositórios, reconhecer novos formatos aquando da identificação e do carregamento de ficheiros, acrescentar novas ferramentas para manipulação de dados e incorporar novas analises e visualizações a partir dos dados carregados. Consoante os requisitos funcionais discutidos, os atributos não funcionais incluem a capacidade de modificação (fácil de modificar e introduzir novas componentes de sistema), a usabilidade (interface fácil de usar e consistente que mostre mensagens de erro e de aviso informativas), o desempenho (foco no tempo tomado pelas operações dado a quantidade de dados para processar e analisar) e a capacidade de reposta (informar o utilizador da operação a decorrer através de uma barra de progresso e bloqueando o botão de início de uma acção durante a operação). Dada a importância da análise estatística e biológica no projecto e do interesse da comunidade científica no R e no Bioconductor (repositório de pacotes R associados a dados biológicos), foi decidido que o projecto seria desenvolvido com base no Shiny, uma framework para desenvolvimento de aplicações web que permite construir aplicações interactivas com a linguagem R e incorporar gráficos interactivos desenvolvidos em HTML5 e JavaScript. Todas as funcionalidades destas ferramentas foram testadas e estudadas através de um protótipo antes da concepção da arquitectura. A arquitectura do sistema foi desenhada de forma modular e extensível, consoante os requisitos mencionados, estimulando assim contribuições de quaisquer partes interessadas, bem como facilitando a expansão do seu suporte para outras fontes de dados, formatos de ficheiro e analises e visualizações efectuadas sem necessidade de alterar as funcionalidades básicas. Para além de facilitar testes e correções às unidades do programa, a expansibilidade possibilita actualizar as ferramentas com novos métodos explorados e desenvolvidos na área e, consequentemente, aumentar o interesse da comunidade científica no programa. A modularidade foi implementada de forma a que, quando o utilizador chama a função para começar a interface visual do programa, dá-se início a uma série de chamadas hierárquicas a outras funções do programa, as quais preparam a interface e a lógica de todos os módulos disponíveis. O programa é composto pelos módulos de obtenção de dados (para obter dados locais ou do TCGA e processá-los de acordo com o seu formato), quantificação de splicing alternativo, análise de dados (analises clínica, componentes principais e diferencial e informações associadas aos genes dos eventos de splicing), agrupamento de dados e definições do programa. Os gráficos interactivos foram adaptados ao diferentes módulos conforme apropriado, recorrendo ao pacote Highcharter. A aplicação realiza vários testes automáticos para validar o output das unidades do programa, de forma a alertar o programador caso haja alguma mudança que altere o output esperado. Esta funcionalidade está incorporada em ferramentas de testes contínuos como o Travis-CI e o AppVeyor. A cobertura do código testado também ´e avaliada pela ferramenta CodeCov. Para testar a interface do programa, foram realizados testes de usabilidade a 6 membros do grupo de Biologia Computacional do Instituto de Medicina Molecular no seu ambiente de trabalho, consoante diversas tarefas pré-definidas. Os participantes escolhidos representam a público-alvo: utilizadores proficientes no conhecimento do domínio de interesse. Várias métricas foram medidas durante as sessões de teste, incluindo o número de problemas encontrados e as opiniões dos utilizadores sobre cada tarefa. Cada participante utilizou uma versão que tentou melhorar alguns dos problemas encontrados pelo participante anterior. A interface foi considerada, em média, muito boa ou excelente para cada tarefa e permitiu atentar a 45 problemas distintos (actualmente, pelo menos 25 desses problemas já foram resolvidos). Para melhorar a usabilidade e funcionalidade do programa, solicitámos recentemente o parecer de contribuidores externos especializados na análise de splicing alternativo. A aplicação também foi testada a nível de desempenho para vários tipos de tumores. Uma análise completa para dados associados a pacientes com cancro da mama (cerca de 1097 pacientes, o maior número de pacientes disponíveis para qualquer tipo de tumor no TCGA) demora cerca de 6 minutos através da interface visual: 47 segundos para carregar os dados necessários do TCGA (excluindo tempo de transferência), 2 minutos e 39 segundos para quantificar o splicing alternativo e 2 minutos e 35 segundos para a análise diferencial baseada nas amostras normais versus tumorais. A interface visual adiciona um overhead ao desempenho, daí ter sido escolhida para medir os tempos nos piores casos possíveis. Em suma, temos estado a desenvolver uma aplicação web em R com uma interface gráfica para a quantificação, análise integrada e visualização de dados de splicing alternativo a partir de grandes conjuntos de dados transcriptómicos provenientes do projecto The Cancer Genome Atlas (TCGA). Esta ferramenta interactiva realiza análise de componentes principais e outras analises exploratórias graficamente assistidas. Entre os seus aspectos mais inovadores encontra-se a análise de variância (que a pesquisa do grupo revela como importante na detecção de alvos de interesse de outra forma despercebidos) e a incorporação de dados clínicos (como estádio tumoral e dados de sobrevivência) associados com as amostras do TCGA. De interesse também se encontra incorporado o acesso visual interactivo para mapeamento genómico e anotação funcional dos eventos de splicing alternativo seleccionados. Aplicação desenvolvida permitiu revelar assinaturas de splicing alternativo específicos de cancro e novos factores putativos de prognóstico. O código da ferramenta já se encontra gratuitamente disponível através de uma licença MIT no GitHub (http://github.com/nuno-agostinho/psichomics) e foi enviada para ser aceite no Bioconductor. Actualmente, a aplicação apenas pode ser utilizada localmente, mas há planos para a disponibilizar num servidor web do Instituto de Medicina Molecular.

Alternative splicing (AS) allows proteins with distinct functions to be generated from the same gene, being involved in the control of many common cellular processes. Its deregulation may therefore foster the progression of a wide range of diseases. For instance, associations between most of the hallmarks of cancer and AS alterations have been reported. The advent of next-generation sequencing has allowed the profiling of transcriptomes beyond gene expression, enabling genome-wide studies of AS. However, the currently available tools for the analysis of AS from RNA-Seq data are not user-friendly and primarily focus on quantification, having limited features for downstream analysis. To overcome these limitations, we have been developing an R application with a graphical interface for the integrated analysis of AS from large transcriptomic datasets, namely from The Cancer Genome Atlas (TCGA) project. The tool interactively performs clustering, principal component and other graphically-assisted exploratory analyses. Amongst its innovative aspects are the analysis of variance (which our research shows to be important in the detection of otherwise unnoticed putative targets) and the direct incorporation of clinical features (such as tumour stage or survival) associated with TCGA samples. Interactive visual access to genomic mapping and functional annotation of selected AS events is also incorporated. We have successfully used the application in the revelation of cancer-specific AS signatures and associated novel putative prognostic factors. The application’s architecture is modular and extensible, aiming to stimulate contributions from its users, as well as to gradually expand its support to other data sources and file formats and the scope of its analysis and visualisation tools without modifying its core functionalities. The tool is available in GitHub (http://github.com/nuno-agostinho/psichomics) and was submitted to be accepted in Bioconductor. Currently, the application is locally run but there are plans to deploy it in a web server from Instituto de Medicina Molecular.

Document Type Master thesis
Language English
Advisor(s) Falcão, André Osório e Cruz de Azerêdo, 1969-; Morais, Nuno Luís Barbosa, 1977-
Contributor(s) Repositório da Universidade de Lisboa
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents