Publicação

Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual

Detalhes bibliográficos
Resumo:	Num contexto global de produção massiva de informação, os dados textuais não estruturados — frequentemente desprezados ou subutilizados — apresentam-se como uma oportunidade para organizações que pretendem personalizar a experiência do utilizador sem, contudo, investir montantes elevados em infraestruturas de dados dispendiosas. Uma vez que os sistemas de recomendação tradicionais, especialmente aqueles baseados em filtragem colaborativa, exigem grandes volumes de dados comportamentais, tornando-se excessivamente onerosos para organizações de menor dimensão, este estudo propõe como alternativa acessível e igualmente eficaz o desenvolvimento de sistemas de recomendação inteiramente baseados em conteúdo textual. Para tal, aplicaram-se técnicas de processamento de linguagem natural (PLN) para analisar a similaridade semântica entre vetores de representação textual, com baixo recurso a capacidade computacional. Foram desenvolvidos dois protótipos — um baseado em Term Frequency - Inverse Document Frequency (abordagem de ponderação lexical) e outro em Sentence BERT (arquitetura de transformers e embeddings densos) — avaliando a sua capacidade de gerar recomendações em dois cenários: o catálogo de oitocentos e sete cursos da Escola Virtual de Governo (EVG) e uma coleção de quase trinta mil livros da Google Books API. Os resultados evidenciaram que ambos os modelos produzem sugestões relevantes, sendo o baseado em Sentence BERT aquele que se destacou pela precisão semântica na captura de nuances contextuais (por exemplo, a distinção de polissemias e relações temáticas implícitas), enquanto o Term Frequency - Inverse Document Frequency mostrou-se preciso na identificação de correspondências lexicais exatas entre palavras chave. A aplicação prática nestes domínios demonstrou a viabilidade de implementação, com recomendações adaptáveis a diferentes necessidades. Este trabalho demonstra que técnicas modernas de processamento de linguagem natural podem democratizar o acesso a sistemas de recomendação e oferecer soluções eficientes às mais diversas organizações, sem comprometer a qualidade das sugestões.
Autores principais:	Pereira, Pedro Henrique Mello
Assunto:	Processamento de Linguagem Natural Sistemas de Recomendação Embeddings Similaridade Semântica Natural Language Processing Recommender Systems Semantic Similarity
Ano:	2025
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Instituto Politécnico de Setúbal
Idioma:	português
Origem:	Instituto Politécnico de Setúbal

_version_	1866997085382901760
author	Pereira, Pedro Henrique Mello
author_facet	Pereira, Pedro Henrique Mello
author_role	author
contributor_name_str_mv	Simões, David Barbosa, Vítor Repositório Comum
country_str	PT
creators_json_txt	[{\"Person.name\":\"Pereira, Pedro Henrique Mello\"}]
datacite.contributors.contributor.contributorName.fl_str_mv	Simões, David Barbosa, Vítor Repositório Comum
datacite.creators.creator.creatorName.fl_str_mv	Pereira, Pedro Henrique Mello
datacite.date.Accepted.fl_str_mv	2025-11-01T00:00:00Z
datacite.date.available.fl_str_mv	2026-01-07T15:20:29Z
datacite.date.embargoed.fl_str_mv	2026-01-07T15:20:29Z
datacite.rights.fl_str_mv	http://purl.org/coar/access_right/c_abf2
datacite.subjects.subject.fl_str_mv	Processamento de Linguagem Natural Sistemas de Recomendação Embeddings Similaridade Semântica Natural Language Processing Recommender Systems Semantic Similarity
datacite.titles.title.fl_str_mv	Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
dc.contributor.none.fl_str_mv	Simões, David Barbosa, Vítor Repositório Comum
dc.creator.none.fl_str_mv	Pereira, Pedro Henrique Mello
dc.date.Accepted.fl_str_mv	2025-11-01T00:00:00Z
dc.date.available.fl_str_mv	2026-01-07T15:20:29Z
dc.date.embargoed.fl_str_mv	2026-01-07T15:20:29Z
dc.description.none.fl_str_mv	In a global context of massive information production, unstructured textual data — often overlooked or underutilized — represents an opportunity for organizations seeking to personalize user experience without investing heavily in costly data infrastructures. Since traditional recommendation systems, particularly those based on collaborative filtering, require large volumes of behavioral data and are therefore prohibitively expensive for smaller organizations, this study proposes an accessible and equally effective alternative: the development of recommendation systems entirely based on textual content. To achieve this, Natural Language Processing (NLP) techniques were applied to analyze semantic similarity between textual representation vectors, with minimal computational resource requirements. Two prototypes were developed — one based on Term Frequency - Inverse Document Frequency (a lexical weighting approach), and another based on Sentence BERT (a transformers architecture using dense embeddings) — and their recommendation capabilities were evaluated in two scenarios: the catalog of eight hundred seven courses from the Escola Virtual de Governo (EVG), and a collection of almost thirty thousand books from the Google Books API. The results showed that both models generated relevant suggestions, with the Sentence BERT model standing out for its semantic precision in capturing contextual nuances (such as distinguishing polysemies and implicit thematic relationships), while the TF-IDF model proved accurate in identifying exact lexical matches between keywords. The practical application in these domains demonstrated the feasibility of implementation, with recommendations adaptable to different needs. This work demonstrates that modern NLP techniques can democratize access to recommendation systems, providing efficient solutions for a wide range of organizations without compromising suggestion quality. Keywords:
dc.format.none.fl_str_mv	application/pdf
dc.identifier.none.fl_str_mv	http://hdl.handle.net/10400.26/60734
dc.language.none.fl_str_mv	por
dc.rights.cclincense.fl_str_mv	http://creativecommons.org/licenses/by/4.0/
dc.rights.none.fl_str_mv	http://purl.org/coar/access_right/c_abf2
dc.subject.none.fl_str_mv	Processamento de Linguagem Natural Sistemas de Recomendação Embeddings Similaridade Semântica Natural Language Processing Recommender Systems Semantic Similarity
dc.title.fl_str_mv	Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
dc.type.none.fl_str_mv	http://purl.org/coar/resource_type/c_bdcc
description	Num contexto global de produção massiva de informação, os dados textuais não estruturados — frequentemente desprezados ou subutilizados — apresentam-se como uma oportunidade para organizações que pretendem personalizar a experiência do utilizador sem, contudo, investir montantes elevados em infraestruturas de dados dispendiosas. Uma vez que os sistemas de recomendação tradicionais, especialmente aqueles baseados em filtragem colaborativa, exigem grandes volumes de dados comportamentais, tornando-se excessivamente onerosos para organizações de menor dimensão, este estudo propõe como alternativa acessível e igualmente eficaz o desenvolvimento de sistemas de recomendação inteiramente baseados em conteúdo textual. Para tal, aplicaram-se técnicas de processamento de linguagem natural (PLN) para analisar a similaridade semântica entre vetores de representação textual, com baixo recurso a capacidade computacional. Foram desenvolvidos dois protótipos — um baseado em Term Frequency - Inverse Document Frequency (abordagem de ponderação lexical) e outro em Sentence BERT (arquitetura de transformers e embeddings densos) — avaliando a sua capacidade de gerar recomendações em dois cenários: o catálogo de oitocentos e sete cursos da Escola Virtual de Governo (EVG) e uma coleção de quase trinta mil livros da Google Books API. Os resultados evidenciaram que ambos os modelos produzem sugestões relevantes, sendo o baseado em Sentence BERT aquele que se destacou pela precisão semântica na captura de nuances contextuais (por exemplo, a distinção de polissemias e relações temáticas implícitas), enquanto o Term Frequency - Inverse Document Frequency mostrou-se preciso na identificação de correspondências lexicais exatas entre palavras chave. A aplicação prática nestes domínios demonstrou a viabilidade de implementação, com recomendações adaptáveis a diferentes necessidades. Este trabalho demonstra que técnicas modernas de processamento de linguagem natural podem democratizar o acesso a sistemas de recomendação e oferecer soluções eficientes às mais diversas organizações, sem comprometer a qualidade das sugestões.
dirty	0
eu_rights_str_mv	openAccess
format	masterThesis
fulltext.url.fl_str_mv	https://comum.rcaap.pt/bitstreams/dbd56719-accd-4e92-8d21-81ed59bcc8ec/download
id	ips_0c9f1ec00bcd951026f7efa71668efc1
identifier.url.fl_str_mv	http://hdl.handle.net/10400.26/60734
instacron_str	ips
institution	Instituto Politécnico de Setúbal
instname_str	Instituto Politécnico de Setúbal
language	por
network_acronym_str	ips
network_name_str	Instituto Politécnico de Setúbal
oai_identifier_str	oai:comum.rcaap.pt:10400.26/60734
organization_str_mv	urn:organizationAcronym:ips
person_str_mv	Pereira, Pedro Henrique Mello
publishDate	2025
reponame_str	Instituto Politécnico de Setúbal
repository_id_str	urn:repositoryAcronym:ips
service_str_mv	urn:repositoryAcronym:ips
spelling	porporNum contexto global de produção massiva de informação, os dados textuais não estruturados — frequentemente desprezados ou subutilizados — apresentam-se como uma oportunidade para organizações que pretendem personalizar a experiência do utilizador sem, contudo, investir montantes elevados em infraestruturas de dados dispendiosas. Uma vez que os sistemas de recomendação tradicionais, especialmente aqueles baseados em filtragem colaborativa, exigem grandes volumes de dados comportamentais, tornando-se excessivamente onerosos para organizações de menor dimensão, este estudo propõe como alternativa acessível e igualmente eficaz o desenvolvimento de sistemas de recomendação inteiramente baseados em conteúdo textual. Para tal, aplicaram-se técnicas de processamento de linguagem natural (PLN) para analisar a similaridade semântica entre vetores de representação textual, com baixo recurso a capacidade computacional. Foram desenvolvidos dois protótipos — um baseado em Term Frequency - Inverse Document Frequency (abordagem de ponderação lexical) e outro em Sentence BERT (arquitetura de transformers e embeddings densos) — avaliando a sua capacidade de gerar recomendações em dois cenários: o catálogo de oitocentos e sete cursos da Escola Virtual de Governo (EVG) e uma coleção de quase trinta mil livros da Google Books API. Os resultados evidenciaram que ambos os modelos produzem sugestões relevantes, sendo o baseado em Sentence BERT aquele que se destacou pela precisão semântica na captura de nuances contextuais (por exemplo, a distinção de polissemias e relações temáticas implícitas), enquanto o Term Frequency - Inverse Document Frequency mostrou-se preciso na identificação de correspondências lexicais exatas entre palavras chave. A aplicação prática nestes domínios demonstrou a viabilidade de implementação, com recomendações adaptáveis a diferentes necessidades. Este trabalho demonstra que técnicas modernas de processamento de linguagem natural podem democratizar o acesso a sistemas de recomendação e oferecer soluções eficientes às mais diversas organizações, sem comprometer a qualidade das sugestões.engIn a global context of massive information production, unstructured textual data — often overlooked or underutilized — represents an opportunity for organizations seeking to personalize user experience without investing heavily in costly data infrastructures. Since traditional recommendation systems, particularly those based on collaborative filtering, require large volumes of behavioral data and are therefore prohibitively expensive for smaller organizations, this study proposes an accessible and equally effective alternative: the development of recommendation systems entirely based on textual content. To achieve this, Natural Language Processing (NLP) techniques were applied to analyze semantic similarity between textual representation vectors, with minimal computational resource requirements. Two prototypes were developed — one based on Term Frequency - Inverse Document Frequency (a lexical weighting approach), and another based on Sentence BERT (a transformers architecture using dense embeddings) — and their recommendation capabilities were evaluated in two scenarios: the catalog of eight hundred seven courses from the Escola Virtual de Governo (EVG), and a collection of almost thirty thousand books from the Google Books API. The results showed that both models generated relevant suggestions, with the Sentence BERT model standing out for its semantic precision in capturing contextual nuances (such as distinguishing polysemies and implicit thematic relationships), while the TF-IDF model proved accurate in identifying exact lexical matches between keywords. The practical application in these domains demonstrated the feasibility of implementation, with recommendations adaptable to different needs. This work demonstrates that modern NLP techniques can democratize access to recommendation systems, providing efficient solutions for a wide range of organizations without compromising suggestion quality. Keywords:application/pdfporUtilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textualPereira, Pedro Henrique MelloSimões, DavidBarbosa, VítorHostingInstitutionOrganizationalRepositório Comume-mailmailto:comum@rcaap.ptcomum@rcaap.ptURNurn:tid:2040555982026-01-07T15:20:29Z2025-112025-11-01T00:00:00ZHandlehttp://hdl.handle.net/10400.26/60734http://purl.org/coar/access_right/c_abf2open accessProcessamento de Linguagem NaturalSistemas de RecomendaçãoEmbeddingsSimilaridade SemânticaNatural Language ProcessingRecommender SystemsSemantic Similarity5128611 bytesliteraturehttp://purl.org/coar/resource_type/c_bdccmaster thesis2025-11http://creativecommons.org/licenses/by/4.0/http://purl.org/coar/access_right/c_abf2application/pdffulltexthttps://comum.rcaap.pt/bitstreams/dbd56719-accd-4e92-8d21-81ed59bcc8ec/download
spellingShingle	Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual Pereira, Pedro Henrique Mello Processamento de Linguagem Natural Sistemas de Recomendação Embeddings Similaridade Semântica Natural Language Processing Recommender Systems Semantic Similarity
status	SINGLETON
subject.fl_str_mv	Processamento de Linguagem Natural Sistemas de Recomendação Embeddings Similaridade Semântica Natural Language Processing Recommender Systems Semantic Similarity
title	Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
title_full	Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
title_fullStr	Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
title_full_unstemmed	Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
title_short	Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
title_sort	Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual
topic	Processamento de Linguagem Natural Sistemas de Recomendação Embeddings Similaridade Semântica Natural Language Processing Recommender Systems Semantic Similarity
topic_facet	Processamento de Linguagem Natural Sistemas de Recomendação Embeddings Similaridade Semântica Natural Language Processing Recommender Systems Semantic Similarity
url	http://hdl.handle.net/10400.26/60734
visible	1

Publicação

Utilização de técnicas de Processamento de Linguagem Natural para construção de um sistema de recomendação baseado na similaridade de vetores de representação textual

Registos relacionados