Document details

Lexicon-grammar of Russian verbal idioms

Author(s): Fukova, Tetyana

Date: 2016

Persistent ID: http://hdl.handle.net/10400.1/8633

Origin: Sapientia - Universidade do Algarve

Subject(s): Russo; Expressões idiomáticas verbais; Léxico-gramática; Identificação automática; Processamento de linguagem natural; Russian; Verbal idioms; Lexicon-grammar; Automatic identification; Natural language processing; Domínio/Área Científica::Humanidades::Outras Humanidades


Description

Dissertação de Mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2016

Esta dissertação descreve um projeto em curso para construir um Léxico-Gramática de expressões idiomáticas verbais da língua russa, para processamento de linguagem natural. O objectivo é produzir um recurso linguístico que poderá ser utilizado para identificar automaticamente essas expressões nos textos que estas ocorrem naturalmente. Tal recurso também pode ser útil para diversas áreas de pesquisa, como a aquisição da linguagem, no ensino e aprendizagem de línguas, em processamento de linguagem natural, entre outros. A identificação automática das unidades de significado em textos envolve a delimitação e identificação corretas das expressões idiomáticas. Usando recursos linguísticos disponíveis e a plataforma de desenvolvimento linguístico Unitex, juntamente com o léxico computacional (machine-readable dictionary) distribuído com este software, pretendemos determinar a informação linguística relevante necessária para processar este tipo de expressões e formalizá-la num banco de dados de expressões idiomáticas. Para este trabalho, foram coletadas 1.000 expressões idiomáticas verbais russas, a partir de dicionários de fraseologia e de outras fontes, que foram classificadas usando o quadro teórico-metodológico do Léxico-Gramática. As expressões foram codificadas num formato tabular, com o objetivo de processamento computacional e identificação automática destas expressões em textos. A fim de recuperar automaticamente a partir de textos as expressões idiomáticas representadas no léxico-gramática num formato tabular, usamos o Unitex, uma plataforma de desenvolvimento linguístico em código aberto (open-source). Uma das suas funcionalidades é a possibilidade de interseção de matrizes de dados com transdutores de estados finito, os quais podem então ser usados para reconhecer e etiquetar padrões complexos em textos. Isso é feito construindo em primeiro lugar um grafo de referência para cada classe de construções. Nesse grafo os elementos lexicais do léxico-gramática são representados por variáveis que se referem à coluna correspondente em que esses elementos aparecem na matriz. Procedeu-se a uma avaliação preliminar do léxico-gramática e dos correspondentes transdutores de estados finito, construídos para a identificação automática das construções fixas em textos, aplicando-os a dois corpora, propositadamente coletadas para este estudo, constituidos por frases obtidas a partir do Corpus Nacional Russo (RNC) on-line, disponível gratuitamente. Os resultados para as classes C1, CP1 e C1P2, isto é, as classes de expressões idiomáticas com maior número de elementos no léxico-gramática, mostram alta abrangência e precisão em ambas as experiências. Foi, de seguida, realizada uma detalhada análise de erros, e algumas melhorias foram feitas, tanto no léxico-gramática como nos grafos de referência.

This dissertation describes an on-going project to build a Lexicon-Grammar of Russian verbal idioms for Natural Language Processing. The aim is to produce a language resource that can be used to automatically identify these idioms in naturally occurring texts. Such resource can also be useful to several fields of research, such as language acquisition, language learning and teaching, natural language processing, among others. The automatic identification of the meaning units in texts involves the correct delimitation and tagging of idioms. Using available linguistic resources and the linguistic development plat-form Unitex, along with the machine-readable dictionary distributed with this software, we determined the relevant linguistic information required to process this type of expressions, and formalized it into a database of idioms. For this work, we collected 1,000 Russian verbal idioms from phraseological dictionaries and other sources, and classified them using the Lexicon-Grammar framework. Idioms were formalized into a tabular format, aiming at computational processing and automatic identification in texts. In order to automatically retrieve from texts the idioms represented in the Lexicon-Grammar, we used Unitex, an open-source linguistic development platform. One of its functionalities is to intersect data matrices with finite-state transducers, which can then be used to match and label complex patterns in texts. This is done by first building reference graphs, one for each class of idioms, where the words in the LG are represented by variables, which refer to the corresponding column in the matrix. In order to do some preliminary evaluation of the Lexicon-Grammar and of the corre-sponding finite-state transducers built for the automatic identification of idioms in texts, we applied these finite-state transducers to two corpora, purposefully collected for this study from the Russian National Corpus (RNC) online, freely available. After confronting the produced golden standard against the system’s output, the results for C1, CP1 and C1P2 classes, the largest and most frequently occurring types of idioms, show high Recall and Precision. A detailed evaluation and error analysis were performed, and some improvements could be made, both in the Lexicon-Grammar and in the finite-state transducers.

Document Type Master thesis
Language English
Advisor(s) Baptista, Jorge Manuel Evangelista; Chornobay, Svitlana
Contributor(s) Sapientia
CC Licence
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents