Publicação
Repositório genealógico nacional: integração e consolidação de dados
| Resumo: | Desde há cerca de vinte anos que o Grupo de História das Populações (GHP) tem vindo a desenvolver, na Universidade do Minho, uma linha de investigação centrada no estudo de comunidades históricas numa perspetiva micro analítica. Estes trabalhos assentam em bases de dados paroquiais (BDP) constituídas a partir dos registos paroquiais (RP) de batismo, casamento e óbito, organizadas segundo uma metodologia desenvolvida por Maria Norberta Amorim (Amorim, 1991), que permite acompanhar o percurso de vida de cada residente da comunidade em encadeamento genealógico. Atualmente, estas BD, que se encontram isoladas - existe uma BD por paróquia - reúnem mais de 1 milhão de registos de indivíduos, com uma representação geográfica concentrada principalmente no Norte de Portugal e em duas ilhas do arquipélago dos Açores, para além de núcleos de menor dimensão nos distritos do Porto, Aveiro, Lisboa e Évora. Este volume de informação exige a concretização de um sistema centralizado que reúna os dados das diferentes comunidades e que possibilite ao investigador acompanhar o percurso dos indivíduos em áreas geográficas mais alargadas. Esta necessidade acentua-se nos estudos sobre espaços urbanos ao longo de vários séculos, considerando a elevada mobilidade dos indivíduos e das famílias. Para a concretização deste sistema centralizado torna-se necessário proceder à integração dos dados das diversas bases de dados locais numa base de dados central (BDC) que, com um modelo de dados unificado, permita a integração, consolidação e análise dos dados disponíveis e a reconstituição, por exemplo, de genealogias familiares. Na presente dissertação analisou-se, em primeira instância, o modelo de dados da BDP, tendo-se averiguado junto dos investigadores do GHP, as limitações que o mesmo apresenta. Com base na informação recolhida, estudou-se, propôs-se e implementou-se a BDC, cujo modelo de dados detém a capacidade de, por um lado, suprimir as limitações identificadas e, por outro, corresponder aos requisitos que a fusão das BDP exige. Idealizou-se e implementou-se, ainda, um conjunto de processos de extração, transformação e carregamento de dados, capaz de, em primeiro lugar, avaliar e tratar das inconsistências dos dados presentes em cada uma das BDP, procedendo depois às transformações de entidades e dados necessárias, para que correspondam aos formatos definidos na BDC. Estes processos realizam, de seguida, o carregamento dos dados para a BDC, garantindo a preservação de todos os registos e os atributos consistentes, presentes em cada uma das BDP. Criou-se ainda uma funcionalidade para a deteção de possíveis registos de indivíduos duplicados, ajustada ao presente contexto de dados e às necessidades do GHP que se revelou de elevada eficácia. A combinação destes elementos resulta na concretização da BDC e de um conjunto de procedimentos capazes de integrar e fundir cada uma das BDP para este repositório único, conforme o desejado pelos investigadores do GHP, para o desenvolvimento de pesquisas e análises mais abrangentes, possíveis apenas com esta realidade. |
|---|---|
| Autores principais: | Salgado, Agostinho Filipe Fernandes |
| Assunto: | Fusão de dados Integração de dados Qualidade de dados Record Linkage Demografia Histórica Data Fusion Data Integration Data Quality Record Linkage Historical demography |
| Ano: | 2016 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade do Minho |
| Idioma: | português |
| Origem: | RepositóriUM - Universidade do Minho |
| Resumo: | Desde há cerca de vinte anos que o Grupo de História das Populações (GHP) tem vindo a desenvolver, na Universidade do Minho, uma linha de investigação centrada no estudo de comunidades históricas numa perspetiva micro analítica. Estes trabalhos assentam em bases de dados paroquiais (BDP) constituídas a partir dos registos paroquiais (RP) de batismo, casamento e óbito, organizadas segundo uma metodologia desenvolvida por Maria Norberta Amorim (Amorim, 1991), que permite acompanhar o percurso de vida de cada residente da comunidade em encadeamento genealógico. Atualmente, estas BD, que se encontram isoladas - existe uma BD por paróquia - reúnem mais de 1 milhão de registos de indivíduos, com uma representação geográfica concentrada principalmente no Norte de Portugal e em duas ilhas do arquipélago dos Açores, para além de núcleos de menor dimensão nos distritos do Porto, Aveiro, Lisboa e Évora. Este volume de informação exige a concretização de um sistema centralizado que reúna os dados das diferentes comunidades e que possibilite ao investigador acompanhar o percurso dos indivíduos em áreas geográficas mais alargadas. Esta necessidade acentua-se nos estudos sobre espaços urbanos ao longo de vários séculos, considerando a elevada mobilidade dos indivíduos e das famílias. Para a concretização deste sistema centralizado torna-se necessário proceder à integração dos dados das diversas bases de dados locais numa base de dados central (BDC) que, com um modelo de dados unificado, permita a integração, consolidação e análise dos dados disponíveis e a reconstituição, por exemplo, de genealogias familiares. Na presente dissertação analisou-se, em primeira instância, o modelo de dados da BDP, tendo-se averiguado junto dos investigadores do GHP, as limitações que o mesmo apresenta. Com base na informação recolhida, estudou-se, propôs-se e implementou-se a BDC, cujo modelo de dados detém a capacidade de, por um lado, suprimir as limitações identificadas e, por outro, corresponder aos requisitos que a fusão das BDP exige. Idealizou-se e implementou-se, ainda, um conjunto de processos de extração, transformação e carregamento de dados, capaz de, em primeiro lugar, avaliar e tratar das inconsistências dos dados presentes em cada uma das BDP, procedendo depois às transformações de entidades e dados necessárias, para que correspondam aos formatos definidos na BDC. Estes processos realizam, de seguida, o carregamento dos dados para a BDC, garantindo a preservação de todos os registos e os atributos consistentes, presentes em cada uma das BDP. Criou-se ainda uma funcionalidade para a deteção de possíveis registos de indivíduos duplicados, ajustada ao presente contexto de dados e às necessidades do GHP que se revelou de elevada eficácia. A combinação destes elementos resulta na concretização da BDC e de um conjunto de procedimentos capazes de integrar e fundir cada uma das BDP para este repositório único, conforme o desejado pelos investigadores do GHP, para o desenvolvimento de pesquisas e análises mais abrangentes, possíveis apenas com esta realidade. |
|---|