Document details

Automatic Web Resource Compilation Using Data Mining

Author(s): Escudeiro, Nuno Filipe Fonseca Vasconcelos cv logo 1

Date: 2009

Persistent ID: http://hdl.handle.net/10216/10767

Origin: Repositório Aberto da Universidade do Porto

Subject(s): INFORMÁTICA; Porto


Description
Análise de Dados e Sistemas de Apoio à Decisão Master in Data Analysis and Decision Support Systems Nesta dissertação propomos uma metodologia que automatize a recolha de recursos na Web e facilite a sua exploração. Um recurso é uma colecção de documentos referentes a um tópico específico definido pelo utilizador. A intervenção do utilizador é explicitamente requerida numa fase inicial, quando este especifica as suas necessidades de informação e fornece alguns documentos exemplificativos. Após esta fase inicial, de definição e especificação das necessidades de informação, a metodologia mantém-se alinhada corn a contínua evolução das preferências do utilizador que são permanentemente monitorizadas e seguidas sem que seja necessáio requerer explicitamente a sua intervenção. Para tal, a metodologia analisa as preferencias do utilizador a partir das suas acções - guardar, imprimir, visualizar, alterar a categoria de documentos - que são automaticamente registadas durante cada sessão. Desta forma o utilizador fornece informação valiosa ao sistema sem qualquer esforço adicional. A metodologia prevê um nível de apresentação, desenhado com o objectivo de permitir a exploração e análise de colecções volumosas de documentos, através do qual o utilizador explora os seus recursos. 0 s recursos são compilados através de um processo de meta-search, onde as pesquisas são programadas por um agente que analisa o compromisso entre a actualidade do recurso e a percentagem de documentos duplicados nas respostas do processo de recolha. As pesquisas são programadas de forma a manter a actualidade do recurso, reduzindo, simultaneamente, o número de pesquisas efectuadas. A metodologia propõe também os mecanismos necessários para avaliar e controlar de forma automática a qualidade global do sistema. Esta qualidade é definida num espaço tridimensional cujas dimensões quantificam o desempenho no que se refere ao nível de Automação, Eficácia e Eficiência. Cada uma destas dimensões agrega um conjunto de medidas relevantes para a qualidade global do sistema: o nivel de Automação é calculado a partir da carga de trabalho que é explicitamente requerida ao utilizador; a Eficiência é calculada a partir das medidas de precison e accuracy; a Eficiência é calculada com base nas medidas de recall, freshness e novelty. 0 sistema mede e regista permanentemente o valor dos seus parâmetros de qualidade globais, que são usados para activar procedimentos correctivos ou preventivos de forma a corrigir ou antecipar uma degradação da qualidade global do sistema. A classificação de páginas Web assume-se como uma tarefa critica na nossa metodologia. Para avaliar da adequação de técnicas de aprendizagem semi-supervisionada foram desenhadas e realizadas algumas experiências. A realização destas experiências foi suportada por um protótipo que implementa parte da metodologia proposta e que foi implementado no decurso deste trabalho. Em particular este protótipo foi utilizado para compilar dois recursos distintos e para estudar a taxa de erro e a robustez da tarefa de classificação semi-automática.
Document Type Master Thesis
Language Portuguese
delicious logo  facebook logo  linkedin logo  twitter logo 
degois logo
mendeley logo

Related documents


    Financiadores do RCAAP

Fundação para a Ciência e a Tecnologia Universidade do Minho   Governo Português Ministério da Educação e Ciência PO Sociedade do Conhecimento (POSC) Portal oficial da União Europeia