Publicação

CEPAD: Classificação e processamento automatizado de documento

Detalhes bibliográficos
Resumo:	A maior parte da faturação continua a ser feita com recurso a papel. A digitalização do processamento deste tipo de documentos promete apresentar vantagens financeiras e de qualidade. Pretendeu-se então estudar a possibilidade de desenvolver uma ferramenta que, recorrendo a Machine Learning, permita auxiliar na identificação e categorização dos campos presentes num documento. Como ponto de partida do desenvolvimento estudou-se o estado da arte atual de vários campos de estudo, como Machine Learning, Optical Character Recognition e tarefas de classificação, partindo-se em seguida para uma análise dos possíveis utilizadores, levantamento de requisitos e modelação do sistema a desenvolver. Recolhidos os dados que permitiram o treino de um modelo de Machine Learning, desenvolveu-se uma aplicação capaz de gerir documentos e processá-los, permitindo aos seus utilizadores validarem os dados inferidos, guardarem os resultados deste processamento e exportarem vários resultados simultaneamente. O modelo final apresenta uma percentagem de acerto de 69% quando tendo em conta resultados exata e parcialmente corretos, com uma Distância de Levenshtein média de 4, servindo assim como um auxílio ao processamento de faturas. Finalmente são apresentadas algumas propostas de trabalho futuro e áreas que poderão beneficiar de ferramentas que utilizem a mesma tecnologia da aplicação desenvolvida.
Autores principais:	Borges, Rui Pedro Pinto
Assunto:	Aprendizagem de Máquina Reconhecimento de Entidades Nomeadas Faturação Eletrónica Desenvolvimento Web Machine Learning Named Entity Recognition E-Invoicing Web Development
Ano:	2022
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Instituto Politécnico de Setúbal
Idioma:	português
Origem:	Instituto Politécnico de Setúbal

Descrição
Resumo:	A maior parte da faturação continua a ser feita com recurso a papel. A digitalização do processamento deste tipo de documentos promete apresentar vantagens financeiras e de qualidade. Pretendeu-se então estudar a possibilidade de desenvolver uma ferramenta que, recorrendo a Machine Learning, permita auxiliar na identificação e categorização dos campos presentes num documento. Como ponto de partida do desenvolvimento estudou-se o estado da arte atual de vários campos de estudo, como Machine Learning, Optical Character Recognition e tarefas de classificação, partindo-se em seguida para uma análise dos possíveis utilizadores, levantamento de requisitos e modelação do sistema a desenvolver. Recolhidos os dados que permitiram o treino de um modelo de Machine Learning, desenvolveu-se uma aplicação capaz de gerir documentos e processá-los, permitindo aos seus utilizadores validarem os dados inferidos, guardarem os resultados deste processamento e exportarem vários resultados simultaneamente. O modelo final apresenta uma percentagem de acerto de 69% quando tendo em conta resultados exata e parcialmente corretos, com uma Distância de Levenshtein média de 4, servindo assim como um auxílio ao processamento de faturas. Finalmente são apresentadas algumas propostas de trabalho futuro e áreas que poderão beneficiar de ferramentas que utilizem a mesma tecnologia da aplicação desenvolvida.