Publicação
Qualidade dos dados & Machine Learning : uma nova abordagem aos censos populacionais e habitacionais
| Resumo: | O projeto realizado consiste no processo de recolha e preparação de dados manuscritos em papel, da aplicação do inquérito Censo Populacional e Habitacional a uma população de mais de vinte milhões de pessoas. Este é um tipo de inquérito que se faz à população de um país, tendo como objetivo retirar conclusões a nível geográfico tanto da população, como das suas condições de vida. Os Censos são realizados com alguma frequência, o que permite efetuar comparações e perceber a transformação da sociedade e de um país, ao longo dos anos. Com o objetivo de tornar os mais de vinte milhões de inquéritos manuscritos em informação útil e de qualidade acerca de um país e de uma população foi necessário dividir o trabalho em três fases, a fase recolha de dados e da sua conversão de imagem para um formato digital onde o texto possa ser editável, a fase de limpeza e tratamento dos dados e, por último, a fase de análise e classificação dos mesmos. De acordo com cada fase, foram utilizadas diversas metodologias e tecnologias, como é o caso do OCR (Optical Character Recognition), NLP (Natural Language Processing) e Machine Learning, respetivamente. Estas abordagens permitiram uma melhor, mais rápida e mais fiável análise de resultados. |
|---|---|
| Autores principais: | Lopes, Inês Margarida Silva Paz |
| Assunto: | Processamento de Linguagem Natural Censos Distância de Levenshtein Machine Learning Modelo de Naïve Bayes Qualidade dos Dados Reconhecimento Ótico de Caracteres Census Data Quality Levenshtein Distance Natural Language Processing Optical Character Recognition Naïve Bayes Model |
| Ano: | 2019 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | português |
| Origem: | Repositório da Universidade de Lisboa |
| Resumo: | O projeto realizado consiste no processo de recolha e preparação de dados manuscritos em papel, da aplicação do inquérito Censo Populacional e Habitacional a uma população de mais de vinte milhões de pessoas. Este é um tipo de inquérito que se faz à população de um país, tendo como objetivo retirar conclusões a nível geográfico tanto da população, como das suas condições de vida. Os Censos são realizados com alguma frequência, o que permite efetuar comparações e perceber a transformação da sociedade e de um país, ao longo dos anos. Com o objetivo de tornar os mais de vinte milhões de inquéritos manuscritos em informação útil e de qualidade acerca de um país e de uma população foi necessário dividir o trabalho em três fases, a fase recolha de dados e da sua conversão de imagem para um formato digital onde o texto possa ser editável, a fase de limpeza e tratamento dos dados e, por último, a fase de análise e classificação dos mesmos. De acordo com cada fase, foram utilizadas diversas metodologias e tecnologias, como é o caso do OCR (Optical Character Recognition), NLP (Natural Language Processing) e Machine Learning, respetivamente. Estas abordagens permitiram uma melhor, mais rápida e mais fiável análise de resultados. |
|---|