Publicação
SAQL: query language for corpora with morpho-syntactic annotation
| Resumo: | Computer Mediated Communication becomes more prevalent with each passing day, be it in social media, blogs or forums. These mediums gather large amounts of people from different backgrounds and provide places where opposing ideals can clash. This can devolve into attacks, resorting to inappropriate language and, in more extreme cases, hate speech. The detection of these cases is a problem, due to the large amount of data posted online and due to the language itself. The various idiosyncrasies of language restrict the automatic classification efforts. The aim of this thesis was to develop a system capable of processing texts, identifying and annotating within them certain syntactic patterns typically present in hate speech. This main purpose can be split in two different goals: morpho-syntactic annotation of online texts, creating a query engine to search for patterns present in the corpus; and identify and classify the occurrence of hate speech in an online medium. As a case study, the corpus extracted from online platforms by the NetLang Project was used. To fulfill these goals, a pre-processing system was implemented, the resulting annotations feeding both the classification system and the query system. The hate speech classification system was developed adopting a mixed methodology, employing manual linguistic analysis to the results arising out of the automatic methods in order to classify instances of hate speech. The system was tested and the results were compared with the statistical classification. The query system consisted in the formulation of the query language and the creation of the respective query engine which allows to search the annotated corpus for particular sequences in the texts. To evaluate the usability of the query engine, an experiment was carried out, gathering feedback from possible final users. |
|---|---|
| Autores principais: | Pereira, Ana Filipa Vilela |
| Assunto: | Computer mediated communication Hate Speech Classification Morpho-syntactic annotation Natural language processing Classificação de discurso de ódio Comunicação mediada por computador Etiquetação morfossintática Processamento de linguagem natural |
| Ano: | 2022 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade do Minho |
| Idioma: | espanhol |
| Origem: | RepositóriUM - Universidade do Minho |
Registos relacionados
school O discurso de ódio em comunicação mediada por computador: deteção e identificação de marcadores textuais
por: Iriarte, Ana Martins
Publicado em: (2022)
por: Iriarte, Ana Martins
Publicado em: (2022)
article Prosodic, Syntactic, Semantic Guidelines for Topic Structures Across Domains and Corpora
por: Mata, Ana Isabel
Publicado em: (2014)
por: Mata, Ana Isabel
Publicado em: (2014)
school O problema da fundamentação da validade dos limites da liberdade de expressão do pensamento face ao discurso de ódio
por: Vilhena, Lucila Gabriella Maciel Carneiro
Publicado em: (2022)
por: Vilhena, Lucila Gabriella Maciel Carneiro
Publicado em: (2022)
article Cartografia do ódio em rede: análise da Liga de futebol profissional em Portugal
por: Miranda, Sandra
Publicado em: (2022)
por: Miranda, Sandra
Publicado em: (2022)
article Discurso de ódio, fake news e redes sociais: uma breve introdução
por: Di Fátima, Branco
Publicado em: (2022)
por: Di Fátima, Branco
Publicado em: (2022)
article Towards Cyberbullying Detection: Building, Benchmarking and Longitudinal Analysis of Aggressiveness and Conflicts/Attacks Datasets from Twitter
por: Ferreira, Paula
Publicado em: (2024)
por: Ferreira, Paula
Publicado em: (2024)
school Ativismo contra os discursos de ódio nas redes sociais : estudo exploratório com jovens adultos
por: Oliveira, Filipa Alexandra Coval
Publicado em: (2022)
por: Oliveira, Filipa Alexandra Coval
Publicado em: (2022)
article Revising the Annotation of a Broadcast News Corpus: a Linguistic Approach
por: Cabarrão, Vera
Publicado em: (2014)
por: Cabarrão, Vera
Publicado em: (2014)
article Enhancing sentiment analysis using syntactic patterns
por: Milhazes, Ricardo
Publicado em: (2023)
por: Milhazes, Ricardo
Publicado em: (2023)
article Hate speech on social media: behaviour of Portuguese football fans on Facebook
por: Miranda, Sandra
Publicado em: (2023)
por: Miranda, Sandra
Publicado em: (2023)
article Processing Annotated TMX Parallel Corpora
por: Brito, Rui Miguel Magalhães
Publicado em: (2014)
por: Brito, Rui Miguel Magalhães
Publicado em: (2014)
article Early experiments on automatic annotation of Portuguese medieval texts
por: Bico, Maria Inês
Publicado em: (2022)
por: Bico, Maria Inês
Publicado em: (2022)
book Lexical semantics annotation for enriched Portuguese corpora
por: Neale, Steven
Publicado em: (2016)
por: Neale, Steven
Publicado em: (2016)
groups QTLeap WSD/NED Corpora: Semantic Annotation of Parallel Corpora in Six Languages
por: Otegi, Arantxa
Publicado em: (2016)
por: Otegi, Arantxa
Publicado em: (2016)
school Discurso de ódio e incivilidade no digital: uma cartografia dos comentários de notícias em um Brasil polarizado
por: Lucena, Vanessa Louise Cortez de
Publicado em: (2019)
por: Lucena, Vanessa Louise Cortez de
Publicado em: (2019)
school A desumanização do inimigo, discurso de ódio e conflitos armados
por: Aguiar, Maria José Sarmento Ribeiro
Publicado em: (2023)
por: Aguiar, Maria José Sarmento Ribeiro
Publicado em: (2023)
article Analyzing hate speech against women on Instagram
por: Miranda, Sandra
Publicado em: (2023)
por: Miranda, Sandra
Publicado em: (2023)
book I love to hate! The racist hate speech in social media
por: Miranda, Sandra
Publicado em: (2022)
por: Miranda, Sandra
Publicado em: (2022)
article Hate and time of politics – agencies, discourses and dualities
por: Alencar F. Barreira, Irlys
Publicado em: (2026)
por: Alencar F. Barreira, Irlys
Publicado em: (2026)
groups Comunicação mediada pelo computador: Tendências da investigação: de Henri, 1991 a Fini & Molino, Maio de 2010
por: Jorge, Idalina
Publicado em: (2010)
por: Jorge, Idalina
Publicado em: (2010)
article Marky: a tool supporting annotation consistency in multi-user and iterative document annotation projects
por: Pérez-Pérez, Martín
Publicado em: (2015)
por: Pérez-Pérez, Martín
Publicado em: (2015)
book Circulation systems, emotions, and presenteeism: three views on hate speech based on attacks on journalists in Brazil
por: Capoano, Edson
Publicado em: (2023)
por: Capoano, Edson
Publicado em: (2023)
article Praias de seixos na costa NW portuguesa: génese e morfodinâmica de curto termo
por: Granja, Helena Maria
Publicado em: (2015)
por: Granja, Helena Maria
Publicado em: (2015)
school O desenho, a biomimetica e a produção de cor estrutural no caso da família Lepidopteran com o foco na borboleta Morpho didius
por: Costa, Juliana Cavalcanti Timotheo da
Publicado em: (2019)
por: Costa, Juliana Cavalcanti Timotheo da
Publicado em: (2019)
article Identifying and characterizing concepts in unstructured texts using automatic annotation
por: Fraga, Tiago
Publicado em: (2022)
por: Fraga, Tiago
Publicado em: (2022)
groups IN[the hate booth]: a gamified installation to contain online hate speech
por: Costa, Susana
Publicado em: (2022)
por: Costa, Susana
Publicado em: (2022)
article Error annotation in the COPLE2 corpus
por: del Río, Iria
Publicado em: (2018)
por: del Río, Iria
Publicado em: (2018)
school Crimes, incidentes e discursos de ódio em campi universitários portugueses – extremismo, racismo e xenofobia
por: Barcellos, Maria Andréa Machado
Publicado em: (2023)
por: Barcellos, Maria Andréa Machado
Publicado em: (2023)
school A relação entre a liberdade de expressão e o princípio democrático frente às particularidades do ciberespaço
por: Rodrigues, Lucas Campeão
Publicado em: (2023)
por: Rodrigues, Lucas Campeão
Publicado em: (2023)
school Cancel culture: what does it mean for a brand to be cancelled?
por: Costa, Cláudia Sofia Gomes da
Publicado em: (2022)
por: Costa, Cláudia Sofia Gomes da
Publicado em: (2022)
school Developing reliability metrics and validation tools for datasets with deep linguistic information
por: Castro, Sérgio Ricardo de
Publicado em: (2011)
por: Castro, Sérgio Ricardo de
Publicado em: (2011)
book The use of big data to address refugee victimization: A scoping review
por: Borges, Gabriela Coelho Mesquita Teixeira
Publicado em: (2026)
por: Borges, Gabriela Coelho Mesquita Teixeira
Publicado em: (2026)
article The Gulf of Guinea Creole Corpora
por: Hagemeijer, Tjerk
Publicado em: (2014)
por: Hagemeijer, Tjerk
Publicado em: (2014)
article NetAC, an automatic classifier of online hate speech comments
por: Elias, Constança
Publicado em: (2021)
por: Elias, Constança
Publicado em: (2021)
groups Insights from a digital diary: exploring the creative process of the game-installation in[The Hate Booth]
por: Tavares, Mirian
Publicado em: (2023)
por: Tavares, Mirian
Publicado em: (2023)
article On verbal agreement variation in European Portuguese: syntactic conditions for the 3SG/3PL alternation
por: Cardoso, Adriana
Publicado em: (2011)
por: Cardoso, Adriana
Publicado em: (2011)
article To hón ich imma insistieat. Syntactic stability in heritage Hunsrückisch German spoken in Brazil
por: Flores, Cristina
Publicado em: (2022)
por: Flores, Cristina
Publicado em: (2022)
school A relativização do discurso de ódio em razão do gênero : a ténue linha entre a liberdade de expressão e a ofensa
por: Lamboia, Allyne Batista
Publicado em: (2025)
por: Lamboia, Allyne Batista
Publicado em: (2025)
school A literatura infantil como recurso para a prevenção e combate ao discurso de ódio
por: Simões, Catarina Filipa Jesus
Publicado em: (2022)
por: Simões, Catarina Filipa Jesus
Publicado em: (2022)
article Marky: a lightweight web tracking tool for document annotation
por: Pérez-Pérez, Martín
Publicado em: (2014)
por: Pérez-Pérez, Martín
Publicado em: (2014)
Registos relacionados
-
school O discurso de ódio em comunicação mediada por computador: deteção e identificação de marcadores textuais
por: Iriarte, Ana Martins
Publicado em: (2022) -
article Prosodic, Syntactic, Semantic Guidelines for Topic Structures Across Domains and Corpora
por: Mata, Ana Isabel
Publicado em: (2014) -
school O problema da fundamentação da validade dos limites da liberdade de expressão do pensamento face ao discurso de ódio
por: Vilhena, Lucila Gabriella Maciel Carneiro
Publicado em: (2022) -
article Cartografia do ódio em rede: análise da Liga de futebol profissional em Portugal
por: Miranda, Sandra
Publicado em: (2022) -
article Discurso de ódio, fake news e redes sociais: uma breve introdução
por: Di Fátima, Branco
Publicado em: (2022)