Publicação
Advanced text mining for annotation of genomic variants
| Resumo: | A deteção de variantes genómicas associadas à doença tornou-se uma tarefa acessível por meio do sequenciamento de nova geração. Esta tecnologia produz grandes quantidades de dados que usando ferramentas de bioinformática permite entender o impacto funcional das variantes. Contudo, às vezes essas informações estão ocultas em textos clínicos não estruturados, sem uma classificação do tipo ‘Benigna’ ou ‘Patogénica’. Embora tais textos estejam na OMIM, as variantes são frequentemente descritas como 'Variantes de Significado Desconhecido' (VUS). Portanto, para interpretar as informações destes textos desenvolvemos uma ferramenta baseada em Text-Mining (TM)/Machine Learning (ML). E, recolhemos textos clínicos não estruturados com uma classificação da ClinVar de ‘Benignas’ ou ‘Patogénicas’. E construímos um conjunto de dados com 24.171 textos clínicos não estruturados, onde 174 são de variantes 'Benignas' e 23.997 de variantes 'Patogénicas'. Os textos de cada variante, foram pré-processados para remover informações irrelevantes. Em seguida, construímos um dicionário de palavras-chave biológicas, dando um valor positivo às palavras-chave com uma conotação positiva e um valor negativo às palavras-chave com uma conotação negativa. Assim, aperfeiçoámos uma estratégia única de pontuação para uma máxima accuracy na classificação. Para testar a nossa estratégia de pontuação, usámos os textos de todas as variantes ‘Benignas’ (n=174) e 1000 variantes ‘Patogénicas’ selecionadas aleatoriamente. A análise feita pela nossa ferramenta a 235 textos levou a uma accuracy de 89,4%. Finalmente, e usando um conjunto de dados de validação com 10 ‘Benignas’ e 690 ‘Patogénicas’ (n=700), conseguimos obter uma accuracy de 99%, ou seja, apenas 7 variantes incorretamente classificadas. Em conclusão, a nossa ferramenta é capaz de interpretar e classificar textos da OMIM com uma alta accuracy. No futuro, abordaremos as variantes VUS/não classificadas, com o objetivo de fornecer ao utilizador uma probabilidade de que tais variantes sejam ‘Benignas’ ou ‘Patogénicas’ num dado contexto de doença. |
|---|---|
| Autores principais: | Monteiro, Ana Rita Patrício |
| Assunto: | Variantes genómicas Text mining Machine learning Classificação de variantes Genomic variants Variants classifications |
| Ano: | 2018 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade do Minho |
| Idioma: | inglês |
| Origem: | RepositóriUM - Universidade do Minho |
| Resumo: | A deteção de variantes genómicas associadas à doença tornou-se uma tarefa acessível por meio do sequenciamento de nova geração. Esta tecnologia produz grandes quantidades de dados que usando ferramentas de bioinformática permite entender o impacto funcional das variantes. Contudo, às vezes essas informações estão ocultas em textos clínicos não estruturados, sem uma classificação do tipo ‘Benigna’ ou ‘Patogénica’. Embora tais textos estejam na OMIM, as variantes são frequentemente descritas como 'Variantes de Significado Desconhecido' (VUS). Portanto, para interpretar as informações destes textos desenvolvemos uma ferramenta baseada em Text-Mining (TM)/Machine Learning (ML). E, recolhemos textos clínicos não estruturados com uma classificação da ClinVar de ‘Benignas’ ou ‘Patogénicas’. E construímos um conjunto de dados com 24.171 textos clínicos não estruturados, onde 174 são de variantes 'Benignas' e 23.997 de variantes 'Patogénicas'. Os textos de cada variante, foram pré-processados para remover informações irrelevantes. Em seguida, construímos um dicionário de palavras-chave biológicas, dando um valor positivo às palavras-chave com uma conotação positiva e um valor negativo às palavras-chave com uma conotação negativa. Assim, aperfeiçoámos uma estratégia única de pontuação para uma máxima accuracy na classificação. Para testar a nossa estratégia de pontuação, usámos os textos de todas as variantes ‘Benignas’ (n=174) e 1000 variantes ‘Patogénicas’ selecionadas aleatoriamente. A análise feita pela nossa ferramenta a 235 textos levou a uma accuracy de 89,4%. Finalmente, e usando um conjunto de dados de validação com 10 ‘Benignas’ e 690 ‘Patogénicas’ (n=700), conseguimos obter uma accuracy de 99%, ou seja, apenas 7 variantes incorretamente classificadas. Em conclusão, a nossa ferramenta é capaz de interpretar e classificar textos da OMIM com uma alta accuracy. No futuro, abordaremos as variantes VUS/não classificadas, com o objetivo de fornecer ao utilizador uma probabilidade de que tais variantes sejam ‘Benignas’ ou ‘Patogénicas’ num dado contexto de doença. |
|---|