Document details

An electronic dictionary of persian verbs

Author(s): Kakanaeeni, Bahareh

Date: 2014

Persistent ID: http://hdl.handle.net/10400.1/7127

Origin: Sapientia - Universidade do Algarve

Subject(s): Ciências da linguagem; Processamento da linguagem; Dicionários eletrónicos; Persa; Verbos; Morfologia; Transdutores; Domínio/Área Científica::Humanidades::Línguas e Literaturas


Description

Dissertação de mestrado, Ciências da Linguagem, Faculdade de Ciências Humanas e Sociais, Universidade do Algarve, 2014

There are more than 110 million Persian speakers in the world, but the lexical resources for Natural Language Processing (NLP) of the Persian language are still too scarce. Though Persian (or Fārsi) uses an adapted form of the Arabic script, it is an Indo-European language and its verbal inflection is based on stems and affixes. This project is to be considered as a first step towards the construction of large-scale lexical resources for Persian, and the development of a Persian module to be distributed with the Unitex linguistic development platform. The specific goal of this dissertation is to build a morphologic, machine-readable dictionary of Persian verbs, using a dictionary of lemmas and a set of morphologic finite-state transducers (FST) to generate all the inflected forms associated to each lemma, and encode them with all the relevant morphosyntactic information (tense, person-number, etc.). This task is complicated in Persian verbal morphology by the fact that each verb has two stems (past and present), different inflection paradigms are used for written (formal) and oral (informal) language uses, and several compound tenses can be formed through combining prefixes and suffixes with base inflected forms, the same tense being able to constitute one, two or more different tokens (separate written forms). A small dictionary of lemmas (145) and their respective written (292) and spoken (127) stems was built, each stem was provided with the appropriate inflection conventional code, which correspond to an inflection paradigm. The list of lemmas was compiled based on frequency data from a large Persian corpus, the TEP (Tehran English-Persian Parallel Corpus), containing around 4.5 million words, and selecting the most frequent verb forms. At its current state, the dictionary of inflected forms contains 1,536 entries. In Persian, in average, each verb lemma yields 28 simple inflected forms, 14 simple 'written' inflected forms and 14 'spoken' inflected forms, and relatively, for each stem there are 7 inflected forms. The recognition of compound tenses is carried out by a set of 22 FST using the system morphological mode and the previous lexical annotation of simple verb forms. These FSTs allowed for the retrieval of 3,953 compound verb tenses from the corpus. For the evaluation of this language resource, a sample text, retrieved from the www.persian.euronews.com, and containing around 1000 words was used to assess the lexical coverage of the simple words' dictionary and the compound tenses' lexical graphs. The evaluation was done manually, based on the recognized words and those that were not identified by lexical resources built here.

Há mais de 110 milhões de falantes da língua Persa (ou Farsi) no mundo, mas os recursos lexicais para Processamento de Língua Natural (NLP) disponíveis para esta língua ainda são muito escassos. Embora o Persa use uma forma adaptada do alfabeto árabe, é uma língua indo europeia e sua flexão verbal é baseada em morfemas radicais e afixos. Este projeto deve ser considerado como um primeiro passo para a construção de recursos lexicais em larga escala para o Persa, e o desenvolvimento de um módulo do Persa a ser distribuído com a plataforma de desenvolvimento linguístico UNITEX. O objetivo específico deste trabalho é construir um dicionário eletrónico, legível por máquinas, de verbos do persa, usando um dicionário de lemas e um conjunto de transdutores de estados finitos (FST) morfológicos para gerar todas as formas flexionadas associadas a cada lema, codificando-as com toda a informação morfossintática relevante (pessoa-número, tempo-modo, etc.). Esta tarefa é complicada na morfologia verbal persa pelo facto de cada verbo tem dois estemas (ing. stem), um para os tempos do passado e outro para os do presente; são também empregues diferentes paradigmas de flexão na linguagem escrita (mais formal) e na oralidade (informal); e, finalmente, pelo facto de vários tempos compostos poderem ser formados através da combinação a prefixos e sufixos com formas flexionadas de base, ao mesmo tempo que podem constituir-se num único, em dois ou até mais diferentes palavras gráficas (tokens). Um pequeno dicionário de lemas (145) e seus respectivos estemas da forma 'escrita' (292) e 'falada' (127) foi, então, construído, e cada estema acompanhado pelo código de flexão convencional de flexão adequado, e que corresponde a um paradigma de inflexão. A lista dos lemas foi compilada com base em dados de frequência de um grande corpus persa, o TEP (Tehran English –Persian Parallel Corpus), contendo cerca de 4,5 milhões de palavras, e selecionando as formas verbais mais frequentes. No seu estado atual, o dicionário de formas flexionadas contém 1.536 entradas. Em Persa, em média, cada lema verbal produz 28 formes simples: 14 formas simples 'escritas' flexionadas e 14 formas 'faladas', dado que cada stema. O reconhecimento de tempos compostos é realizado por um conjunto de 22 FSTs utilizando o modo morfológico do sistema e a prévia anotação lexical de formas verbais simples. Estes grafos permitiram reconhecer 3.953 formas compostas no corpus utilizado. Para a avaliação deste recurso linguistico, utilizou-se um texto obtido a partir da www.persian.euronews.com e contendo cerca de 1.000 palavras, a fim de estimar a cobertura lexical dos recursos construídos. A avaliação foi feita manualmente com base nas palavras reconhecidas e nas não identificadas pelos recursos lexicais aqui construídos.

Document Type Master thesis
Language English
Advisor(s) Baptista, Jorge
Contributor(s) Sapientia
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents