Publicação

CEPAD: Classificação e processamento automatizado de documento

Ver documento

Detalhes bibliográficos
Resumo:A maior parte da faturação continua a ser feita com recurso a papel. A digitalização do processamento deste tipo de documentos promete apresentar vantagens financeiras e de qualidade. Pretendeu-se então estudar a possibilidade de desenvolver uma ferramenta que, recorrendo a Machine Learning, permita auxiliar na identificação e categorização dos campos presentes num documento. Como ponto de partida do desenvolvimento estudou-se o estado da arte atual de vários campos de estudo, como Machine Learning, Optical Character Recognition e tarefas de classificação, partindo-se em seguida para uma análise dos possíveis utilizadores, levantamento de requisitos e modelação do sistema a desenvolver. Recolhidos os dados que permitiram o treino de um modelo de Machine Learning, desenvolveu-se uma aplicação capaz de gerir documentos e processá-los, permitindo aos seus utilizadores validarem os dados inferidos, guardarem os resultados deste processamento e exportarem vários resultados simultaneamente. O modelo final apresenta uma percentagem de acerto de 69% quando tendo em conta resultados exata e parcialmente corretos, com uma Distância de Levenshtein média de 4, servindo assim como um auxílio ao processamento de faturas. Finalmente são apresentadas algumas propostas de trabalho futuro e áreas que poderão beneficiar de ferramentas que utilizem a mesma tecnologia da aplicação desenvolvida.
Autores principais:Borges, Rui Pedro Pinto
Assunto:Aprendizagem de Máquina Reconhecimento de Entidades Nomeadas Faturação Eletrónica Desenvolvimento Web Machine Learning Named Entity Recognition E-Invoicing Web Development
Ano:2022
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso aberto
Instituição associada:Instituto Politécnico de Setúbal
Idioma:português
Origem:Instituto Politécnico de Setúbal
Descrição
Resumo:A maior parte da faturação continua a ser feita com recurso a papel. A digitalização do processamento deste tipo de documentos promete apresentar vantagens financeiras e de qualidade. Pretendeu-se então estudar a possibilidade de desenvolver uma ferramenta que, recorrendo a Machine Learning, permita auxiliar na identificação e categorização dos campos presentes num documento. Como ponto de partida do desenvolvimento estudou-se o estado da arte atual de vários campos de estudo, como Machine Learning, Optical Character Recognition e tarefas de classificação, partindo-se em seguida para uma análise dos possíveis utilizadores, levantamento de requisitos e modelação do sistema a desenvolver. Recolhidos os dados que permitiram o treino de um modelo de Machine Learning, desenvolveu-se uma aplicação capaz de gerir documentos e processá-los, permitindo aos seus utilizadores validarem os dados inferidos, guardarem os resultados deste processamento e exportarem vários resultados simultaneamente. O modelo final apresenta uma percentagem de acerto de 69% quando tendo em conta resultados exata e parcialmente corretos, com uma Distância de Levenshtein média de 4, servindo assim como um auxílio ao processamento de faturas. Finalmente são apresentadas algumas propostas de trabalho futuro e áreas que poderão beneficiar de ferramentas que utilizem a mesma tecnologia da aplicação desenvolvida.