Publicação

Bioinformatics in support of DNA-based fish monitoring and screening of intraspecific genetic divergence in Eastern Atlantic ichthyofauna

Detalhes bibliográficos
Resumo:	A identificação de peixes marinhos é desafiante devido à sua imensa biodiversidade e à extensão do ambiente marinho, tornando-os um modelo ideal para identificações de espécie baseadas em DNA. Os DNA barcodes do gene citocromo c oxidase subunidade I (COI), suportados por um extenso conjunto de dados, constituem uma abordagem confiável para catalogar peixes marinhos e identificar diversidade não descrita. No entanto, inconsistências nas sequências de referência e outras limitações técnicas podem dificultar a sua aplicação em (e)DNA (meta)barcoding, caso não sejam devidamente abordadas. Esta tese explorou o uso de recursos bioinformáticos para (i) testar redes neuronais artificiais para automatizar a curadoria de bibliotecas de referência de DNA barcodes; (ii) gerar uma biblioteca de referência de COI para peixes marinhos do Atlântico Oriental e águas adjacentes, utilizando-a para detetar divergências genéticas profundas; (iii) realizar uma análise filogeográfica baseada em COI do peixe-galo (Zeus faber Linnaeus, 1758) para revelar a sua estrutura genética e preencher uma lacuna de dados ao longo da costa Atlântica de África; e (iv) avaliar o poder discriminatório dos marcadores genéticos COI, 12S, e 16S, usados para a identificação de peixes marinhos por meio de (e)DNA metabarcoding. As redes neuronais artificiais atingiram uma precisão média de 93.5%. A biblioteca de referência de COI, constituída por 1,443 espécies e 1,986 Barcode Index Numbers (BINs), revelou uma divergência intraespecífica considerável, com 286 espécies atribuídas a múltiplos BINs (distância K2P média entre BINs: 6.1%). Zeus faber revelou dois clados altamente divergentes (distância K2P média: 7.4%), com a zona de transição localizada na costa Atlântica de Marrocos. O Clado A estava distribuído pelo Atlântico Nordeste e o Mediterrâneo, enquanto o Clado B, que apresentava estrutura genética, se estendia da Nova Zelândia à África do Sul e até Marrocos. Por fim, a análise in silico sugeriu um poder discriminatório variável entre os amplicões de metabarcoding dos marcadores COI, 12S, e 16S, e entre ordens de peixes ósseos, destacando as vantagens de uma abordagem com múltiplos marcadores em ambientes com ictiofauna altamente diversa. De forma geral, a utilidade dos recursos bioinformáticos para apoiar a investigação e monitorização da ictiofauna através de (e)DNA (meta)barcoding foi demonstrada em variadas aplicações. Estes incluíram o uso de bases de dados públicas, scripts e automatização, software e plataformas baseadas na web para análise de sequências, assim como modelos de aprendizagem profunda para a curadoria de dados. Prevê-se que estes recursos se tornem cada vez mais indispensáveis com o aumento do volume e complexidade dos dados e metadados de sequências de DNA de acesso aberto, impulsionados pelos avanços em tecnologias computacionais e inteligência artificial.
Autores principais:	Fontes, João Tadeu Silva
Assunto:	Bibliotecas de referência Curadoria de dados Divergência intraespecífica DNA barcoding Identificação de espécies Data curation Intraspecific divergence Reference libraries Species identification
Ano:	2025
País:	Portugal
Tipo de documento:	tese de doutoramento
Tipo de acesso:	acesso embargado
Instituição associada:	Universidade do Minho
Idioma:	inglês
Origem:	RepositóriUM - Universidade do Minho

Descrição
Resumo:	A identificação de peixes marinhos é desafiante devido à sua imensa biodiversidade e à extensão do ambiente marinho, tornando-os um modelo ideal para identificações de espécie baseadas em DNA. Os DNA barcodes do gene citocromo c oxidase subunidade I (COI), suportados por um extenso conjunto de dados, constituem uma abordagem confiável para catalogar peixes marinhos e identificar diversidade não descrita. No entanto, inconsistências nas sequências de referência e outras limitações técnicas podem dificultar a sua aplicação em (e)DNA (meta)barcoding, caso não sejam devidamente abordadas. Esta tese explorou o uso de recursos bioinformáticos para (i) testar redes neuronais artificiais para automatizar a curadoria de bibliotecas de referência de DNA barcodes; (ii) gerar uma biblioteca de referência de COI para peixes marinhos do Atlântico Oriental e águas adjacentes, utilizando-a para detetar divergências genéticas profundas; (iii) realizar uma análise filogeográfica baseada em COI do peixe-galo (Zeus faber Linnaeus, 1758) para revelar a sua estrutura genética e preencher uma lacuna de dados ao longo da costa Atlântica de África; e (iv) avaliar o poder discriminatório dos marcadores genéticos COI, 12S, e 16S, usados para a identificação de peixes marinhos por meio de (e)DNA metabarcoding. As redes neuronais artificiais atingiram uma precisão média de 93.5%. A biblioteca de referência de COI, constituída por 1,443 espécies e 1,986 Barcode Index Numbers (BINs), revelou uma divergência intraespecífica considerável, com 286 espécies atribuídas a múltiplos BINs (distância K2P média entre BINs: 6.1%). Zeus faber revelou dois clados altamente divergentes (distância K2P média: 7.4%), com a zona de transição localizada na costa Atlântica de Marrocos. O Clado A estava distribuído pelo Atlântico Nordeste e o Mediterrâneo, enquanto o Clado B, que apresentava estrutura genética, se estendia da Nova Zelândia à África do Sul e até Marrocos. Por fim, a análise in silico sugeriu um poder discriminatório variável entre os amplicões de metabarcoding dos marcadores COI, 12S, e 16S, e entre ordens de peixes ósseos, destacando as vantagens de uma abordagem com múltiplos marcadores em ambientes com ictiofauna altamente diversa. De forma geral, a utilidade dos recursos bioinformáticos para apoiar a investigação e monitorização da ictiofauna através de (e)DNA (meta)barcoding foi demonstrada em variadas aplicações. Estes incluíram o uso de bases de dados públicas, scripts e automatização, software e plataformas baseadas na web para análise de sequências, assim como modelos de aprendizagem profunda para a curadoria de dados. Prevê-se que estes recursos se tornem cada vez mais indispensáveis com o aumento do volume e complexidade dos dados e metadados de sequências de DNA de acesso aberto, impulsionados pelos avanços em tecnologias computacionais e inteligência artificial.