Publicação

KNN com relevância: uma extensão do classificador de Machine Learning KNN tradicional

Detalhes bibliográficos
Resumo:	À medida que o tempo avança, cada vez mais o Machine Learning (ML) está presente no nosso quotidiano, mesmo sem nos apercebermos disso numa primeira instância. Desde as recomendações de filmes na Netflix, ao reconhecimento dos nossos amigos nas fotos do Facebook. ML ou aprendizado das máquinas são métodos computacionais que utilizam conhecimento através de experiências passadas fornecidas por um utilizador. Os algoritmos de ML de classificação têm como output a classe de um objeto. Um dos mais conhecidos algoritmos deste tipo é o K-Nearest Neighbour (KNN). De uma forma abrangente, é fornecido a este classificador um conjunto de dados com características e os respetivos rótulos (ou classes). Com esses dados o modelo aprende e, posteriormente, torna-se capaz de classificar qualquer objeto, apenas com o fornecimento das suas características. Para essa classificação, o KNN utiliza os K dados rotulados mais próximos do objeto a classificar e classifica-o com a classe mais frequente encontrada. Muitos são os estudos que comprovam a eficácia deste classificador. Porém, existem casos em que poderá ser mais útil utilizar uma extensão deste classificador: o KNN com relevância. Este classificador calcula a relevância das classes dos vizinhos, através de funções de relevância, atribuindo uma relevância maior aos dados mais próximos e uma relevância menor aos dados mais longínquos. Ao longo deste trabalho será feita uma análise detalhada deste novo método e será estudada a sua eficácia em duas bases de dados da biblioteca Sklearn presente na linguagem de programação Python. A biblioteca Sklearn fornece algoritmos de ML. Porém, a extensão do modelo KNN tradicional, o algoritmo KNN com relevância, não está presente na mesma. Neste sentido, serão, também, construídos três classificadores, cada um com uma função de relevância diferente: o Inverso da Distância entre os dados, a Função Gaussian Kernel e a Função Característica de uma esfera.
Autores principais:	Lopes, Diana Filipa Rodrigues
Assunto:	K-Nearest neighbor Python Sklearn Relevância Machine learning Relevance Ciências Naturais::Matemáticas
Ano:	2022
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade do Minho
Idioma:	português
Origem:	RepositóriUM - Universidade do Minho

Descrição
Resumo:	À medida que o tempo avança, cada vez mais o Machine Learning (ML) está presente no nosso quotidiano, mesmo sem nos apercebermos disso numa primeira instância. Desde as recomendações de filmes na Netflix, ao reconhecimento dos nossos amigos nas fotos do Facebook. ML ou aprendizado das máquinas são métodos computacionais que utilizam conhecimento através de experiências passadas fornecidas por um utilizador. Os algoritmos de ML de classificação têm como output a classe de um objeto. Um dos mais conhecidos algoritmos deste tipo é o K-Nearest Neighbour (KNN). De uma forma abrangente, é fornecido a este classificador um conjunto de dados com características e os respetivos rótulos (ou classes). Com esses dados o modelo aprende e, posteriormente, torna-se capaz de classificar qualquer objeto, apenas com o fornecimento das suas características. Para essa classificação, o KNN utiliza os K dados rotulados mais próximos do objeto a classificar e classifica-o com a classe mais frequente encontrada. Muitos são os estudos que comprovam a eficácia deste classificador. Porém, existem casos em que poderá ser mais útil utilizar uma extensão deste classificador: o KNN com relevância. Este classificador calcula a relevância das classes dos vizinhos, através de funções de relevância, atribuindo uma relevância maior aos dados mais próximos e uma relevância menor aos dados mais longínquos. Ao longo deste trabalho será feita uma análise detalhada deste novo método e será estudada a sua eficácia em duas bases de dados da biblioteca Sklearn presente na linguagem de programação Python. A biblioteca Sklearn fornece algoritmos de ML. Porém, a extensão do modelo KNN tradicional, o algoritmo KNN com relevância, não está presente na mesma. Neste sentido, serão, também, construídos três classificadores, cada um com uma função de relevância diferente: o Inverso da Distância entre os dados, a Função Gaussian Kernel e a Função Característica de uma esfera.