Publicação

Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual

Ver documento

Detalhes bibliográficos
Resumo:Num contexto global de produção massiva de informação, os dados textuais não estruturados — frequentemente desprezados ou subutilizados — apresentam-se como uma oportunidade para organizações que pretendem personalizar a experiência do utilizador sem, contudo, investir montantes elevados em infraestruturas de dados dispendiosas. Uma vez que os sistemas de recomendação tradicionais, especialmente aqueles baseados em filtragem colaborativa, exigem grandes volumes de dados comportamentais, tornando-se excessivamente onerosos para organizações de menor dimensão, este estudo propõe como alternativa acessível e igualmente eficaz o desenvolvimento de sistemas de recomendação inteiramente baseados em conteúdo textual. Para tal, aplicaram-se técnicas de processamento de linguagem natural (PLN) para analisar a similaridade semântica entre vetores de representação textual, com baixo recurso a capacidade computacional. Foram desenvolvidos dois protótipos — um baseado em Term Frequency - Inverse Document Frequency (abordagem de ponderação lexical) e outro em Sentence BERT (arquitetura de transformers e embeddings densos) — avaliando a sua capacidade de gerar recomendações em dois cenários: o catálogo de oitocentos e sete cursos da Escola Virtual de Governo (EVG) e uma coleção de quase trinta mil livros da Google Books API. Os resultados evidenciaram que ambos os modelos produzem sugestões relevantes, sendo o baseado em Sentence BERT aquele que se destacou pela precisão semântica na captura de nuances contextuais (por exemplo, a distinção de polissemias e relações temáticas implícitas), enquanto o Term Frequency - Inverse Document Frequency mostrou-se preciso na identificação de correspondências lexicais exatas entre palavras chave. A aplicação prática nestes domínios demonstrou a viabilidade de implementação, com recomendações adaptáveis a diferentes necessidades. Este trabalho demonstra que técnicas modernas de processamento de linguagem natural podem democratizar o acesso a sistemas de recomendação e oferecer soluções eficientes às mais diversas organizações, sem comprometer a qualidade das sugestões.
Autores principais:Pereira, Pedro Henrique Mello
Assunto:Processamento de Linguagem Natural Sistemas de Recomendação Embeddings Similaridade Semântica Natural Language Processing Recommender Systems Semantic Similarity
Ano:2025
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso aberto
Instituição associada:Instituto Politécnico de Setúbal
Idioma:português
Origem:Instituto Politécnico de Setúbal
_version_ 1866997085382901760
author Pereira, Pedro Henrique Mello
author_facet Pereira, Pedro Henrique Mello
author_role author
contributor_name_str_mv Simões, David
Barbosa, Vítor
Repositório Comum
country_str PT
creators_json_txt [{\"Person.name\":\"Pereira, Pedro Henrique Mello\"}]
datacite.contributors.contributor.contributorName.fl_str_mv Simões, David
Barbosa, Vítor
Repositório Comum
datacite.creators.creator.creatorName.fl_str_mv Pereira, Pedro Henrique Mello
datacite.date.Accepted.fl_str_mv 2025-11-01T00:00:00Z
datacite.date.available.fl_str_mv 2026-01-07T15:20:29Z
datacite.date.embargoed.fl_str_mv 2026-01-07T15:20:29Z
datacite.rights.fl_str_mv http://purl.org/coar/access_right/c_abf2
datacite.subjects.subject.fl_str_mv Processamento de Linguagem Natural
Sistemas de Recomendação
Embeddings
Similaridade Semântica
Natural Language Processing
Recommender Systems
Semantic Similarity
datacite.titles.title.fl_str_mv Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
dc.contributor.none.fl_str_mv Simões, David
Barbosa, Vítor
Repositório Comum
dc.creator.none.fl_str_mv Pereira, Pedro Henrique Mello
dc.date.Accepted.fl_str_mv 2025-11-01T00:00:00Z
dc.date.available.fl_str_mv 2026-01-07T15:20:29Z
dc.date.embargoed.fl_str_mv 2026-01-07T15:20:29Z
dc.description.none.fl_str_mv In a global context of massive information production, unstructured textual data — often overlooked or underutilized — represents an opportunity for organizations seeking to personalize user experience without investing heavily in costly data infrastructures. Since traditional recommendation systems, particularly those based on collaborative filtering, require large volumes of behavioral data and are therefore prohibitively expensive for smaller organizations, this study proposes an accessible and equally effective alternative: the development of recommendation systems entirely based on textual content. To achieve this, Natural Language Processing (NLP) techniques were applied to analyze semantic similarity between textual representation vectors, with minimal computational resource requirements. Two prototypes were developed — one based on Term Frequency - Inverse Document Frequency (a lexical weighting approach), and another based on Sentence BERT (a transformers architecture using dense embeddings) — and their recommendation capabilities were evaluated in two scenarios: the catalog of eight hundred seven courses from the Escola Virtual de Governo (EVG), and a collection of almost thirty thousand books from the Google Books API. The results showed that both models generated relevant suggestions, with the Sentence BERT model standing out for its semantic precision in capturing contextual nuances (such as distinguishing polysemies and implicit thematic relationships), while the TF-IDF model proved accurate in identifying exact lexical matches between keywords. The practical application in these domains demonstrated the feasibility of implementation, with recommendations adaptable to different needs. This work demonstrates that modern NLP techniques can democratize access to recommendation systems, providing efficient solutions for a wide range of organizations without compromising suggestion quality. Keywords:
dc.format.none.fl_str_mv application/pdf
dc.identifier.none.fl_str_mv http://hdl.handle.net/10400.26/60734
dc.language.none.fl_str_mv por
dc.rights.cclincense.fl_str_mv http://creativecommons.org/licenses/by/4.0/
dc.rights.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.subject.none.fl_str_mv Processamento de Linguagem Natural
Sistemas de Recomendação
Embeddings
Similaridade Semântica
Natural Language Processing
Recommender Systems
Semantic Similarity
dc.title.fl_str_mv Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
dc.type.none.fl_str_mv http://purl.org/coar/resource_type/c_bdcc
description Num contexto global de produção massiva de informação, os dados textuais não estruturados — frequentemente desprezados ou subutilizados — apresentam-se como uma oportunidade para organizações que pretendem personalizar a experiência do utilizador sem, contudo, investir montantes elevados em infraestruturas de dados dispendiosas. Uma vez que os sistemas de recomendação tradicionais, especialmente aqueles baseados em filtragem colaborativa, exigem grandes volumes de dados comportamentais, tornando-se excessivamente onerosos para organizações de menor dimensão, este estudo propõe como alternativa acessível e igualmente eficaz o desenvolvimento de sistemas de recomendação inteiramente baseados em conteúdo textual. Para tal, aplicaram-se técnicas de processamento de linguagem natural (PLN) para analisar a similaridade semântica entre vetores de representação textual, com baixo recurso a capacidade computacional. Foram desenvolvidos dois protótipos — um baseado em Term Frequency - Inverse Document Frequency (abordagem de ponderação lexical) e outro em Sentence BERT (arquitetura de transformers e embeddings densos) — avaliando a sua capacidade de gerar recomendações em dois cenários: o catálogo de oitocentos e sete cursos da Escola Virtual de Governo (EVG) e uma coleção de quase trinta mil livros da Google Books API. Os resultados evidenciaram que ambos os modelos produzem sugestões relevantes, sendo o baseado em Sentence BERT aquele que se destacou pela precisão semântica na captura de nuances contextuais (por exemplo, a distinção de polissemias e relações temáticas implícitas), enquanto o Term Frequency - Inverse Document Frequency mostrou-se preciso na identificação de correspondências lexicais exatas entre palavras chave. A aplicação prática nestes domínios demonstrou a viabilidade de implementação, com recomendações adaptáveis a diferentes necessidades. Este trabalho demonstra que técnicas modernas de processamento de linguagem natural podem democratizar o acesso a sistemas de recomendação e oferecer soluções eficientes às mais diversas organizações, sem comprometer a qualidade das sugestões.
dirty 0
eu_rights_str_mv openAccess
format masterThesis
fulltext.url.fl_str_mv https://comum.rcaap.pt/bitstreams/dbd56719-accd-4e92-8d21-81ed59bcc8ec/download
id ips_0c9f1ec00bcd951026f7efa71668efc1
identifier.url.fl_str_mv http://hdl.handle.net/10400.26/60734
instacron_str ips
institution Instituto Politécnico de Setúbal
instname_str Instituto Politécnico de Setúbal
language por
network_acronym_str ips
network_name_str Instituto Politécnico de Setúbal
oai_identifier_str oai:comum.rcaap.pt:10400.26/60734
organization_str_mv urn:organizationAcronym:ips
person_str_mv Pereira, Pedro Henrique Mello
publishDate 2025
reponame_str Instituto Politécnico de Setúbal
repository_id_str urn:repositoryAcronym:ips
service_str_mv urn:repositoryAcronym:ips
spelling porporNum contexto global de produção massiva de informação, os dados textuais não estruturados — frequentemente desprezados ou subutilizados — apresentam-se como uma oportunidade para organizações que pretendem personalizar a experiência do utilizador sem, contudo, investir montantes elevados em infraestruturas de dados dispendiosas. Uma vez que os sistemas de recomendação tradicionais, especialmente aqueles baseados em filtragem colaborativa, exigem grandes volumes de dados comportamentais, tornando-se excessivamente onerosos para organizações de menor dimensão, este estudo propõe como alternativa acessível e igualmente eficaz o desenvolvimento de sistemas de recomendação inteiramente baseados em conteúdo textual. Para tal, aplicaram-se técnicas de processamento de linguagem natural (PLN) para analisar a similaridade semântica entre vetores de representação textual, com baixo recurso a capacidade computacional. Foram desenvolvidos dois protótipos — um baseado em Term Frequency - Inverse Document Frequency (abordagem de ponderação lexical) e outro em Sentence BERT (arquitetura de transformers e embeddings densos) — avaliando a sua capacidade de gerar recomendações em dois cenários: o catálogo de oitocentos e sete cursos da Escola Virtual de Governo (EVG) e uma coleção de quase trinta mil livros da Google Books API. Os resultados evidenciaram que ambos os modelos produzem sugestões relevantes, sendo o baseado em Sentence BERT aquele que se destacou pela precisão semântica na captura de nuances contextuais (por exemplo, a distinção de polissemias e relações temáticas implícitas), enquanto o Term Frequency - Inverse Document Frequency mostrou-se preciso na identificação de correspondências lexicais exatas entre palavras chave. A aplicação prática nestes domínios demonstrou a viabilidade de implementação, com recomendações adaptáveis a diferentes necessidades. Este trabalho demonstra que técnicas modernas de processamento de linguagem natural podem democratizar o acesso a sistemas de recomendação e oferecer soluções eficientes às mais diversas organizações, sem comprometer a qualidade das sugestões.engIn a global context of massive information production, unstructured textual data — often overlooked or underutilized — represents an opportunity for organizations seeking to personalize user experience without investing heavily in costly data infrastructures. Since traditional recommendation systems, particularly those based on collaborative filtering, require large volumes of behavioral data and are therefore prohibitively expensive for smaller organizations, this study proposes an accessible and equally effective alternative: the development of recommendation systems entirely based on textual content. To achieve this, Natural Language Processing (NLP) techniques were applied to analyze semantic similarity between textual representation vectors, with minimal computational resource requirements. Two prototypes were developed — one based on Term Frequency - Inverse Document Frequency (a lexical weighting approach), and another based on Sentence BERT (a transformers architecture using dense embeddings) — and their recommendation capabilities were evaluated in two scenarios: the catalog of eight hundred seven courses from the Escola Virtual de Governo (EVG), and a collection of almost thirty thousand books from the Google Books API. The results showed that both models generated relevant suggestions, with the Sentence BERT model standing out for its semantic precision in capturing contextual nuances (such as distinguishing polysemies and implicit thematic relationships), while the TF-IDF model proved accurate in identifying exact lexical matches between keywords. The practical application in these domains demonstrated the feasibility of implementation, with recommendations adaptable to different needs. This work demonstrates that modern NLP techniques can democratize access to recommendation systems, providing efficient solutions for a wide range of organizations without compromising suggestion quality. Keywords:application/pdfporUtilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textualPereira, Pedro Henrique MelloSimões, DavidBarbosa, VítorHostingInstitutionOrganizationalRepositório Comume-mailmailto:comum@rcaap.ptcomum@rcaap.ptURNurn:tid:2040555982026-01-07T15:20:29Z2025-112025-11-01T00:00:00ZHandlehttp://hdl.handle.net/10400.26/60734http://purl.org/coar/access_right/c_abf2open accessProcessamento de Linguagem NaturalSistemas de RecomendaçãoEmbeddingsSimilaridade SemânticaNatural Language ProcessingRecommender SystemsSemantic Similarity5128611 bytesliteraturehttp://purl.org/coar/resource_type/c_bdccmaster thesis2025-11http://creativecommons.org/licenses/by/4.0/http://purl.org/coar/access_right/c_abf2application/pdffulltexthttps://comum.rcaap.pt/bitstreams/dbd56719-accd-4e92-8d21-81ed59bcc8ec/download
spellingShingle Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
Pereira, Pedro Henrique Mello
Processamento de Linguagem Natural
Sistemas de Recomendação
Embeddings
Similaridade Semântica
Natural Language Processing
Recommender Systems
Semantic Similarity
status SINGLETON
subject.fl_str_mv Processamento de Linguagem Natural
Sistemas de Recomendação
Embeddings
Similaridade Semântica
Natural Language Processing
Recommender Systems
Semantic Similarity
title Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
title_full Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
title_fullStr Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
title_full_unstemmed Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
title_short Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
title_sort Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
topic Processamento de Linguagem Natural
Sistemas de Recomendação
Embeddings
Similaridade Semântica
Natural Language Processing
Recommender Systems
Semantic Similarity
topic_facet Processamento de Linguagem Natural
Sistemas de Recomendação
Embeddings
Similaridade Semântica
Natural Language Processing
Recommender Systems
Semantic Similarity
url http://hdl.handle.net/10400.26/60734
visible 1