Publicação

Synthetic data generation from JSON/XML schemas

Detalhes bibliográficos
Resumo:	The objective of this dissertation is the development of an application capable of automatically generating synthetic datasets that are representative and, possibly, very large, directly from JSON and XML schemas, in order to facilitate the testing of software applications and scientific endeavors in areas such as Data Science or Application Development. For this purpose, it is intended to develop a new version of DataGen, an online open-source application that allows the quick prototyping of datasets through its own Domain Specific Language (DSL) of specification of data models. DataGen is able to parse these models and generate synthetic datasets according to the structural and semantic restrictions stipulated, automating the whole process of data generation with spontaneous values created in runtime and/or from a library of support datasets. The objective of this new product, DataGen From Schemas, is to expand DataGen’s use cases and raise the datasets specification’s abstraction level, making it possible to generate synthetic datasets directly from schemas. This new platform builds upon its prior version and acts as its complement, operating jointly and sharing the same data layer, in order to assure the compatibility of both platforms and the portability of the created DSL models between them. Its purpose is to parse schema files and generate corresponding DSL models, effectively translating the JSON or XML specification to a DataGen model, then using the original application as a middleware to generate the final datasets. The present dissertation details the entire creative process behind the development of this application: firstly, it frames the topic of study and its initial phase of investigation, debating relevant technologies and existing related work; then, the ideation phase of the product is addressed, projecting an adequate arquitecture and the reasons behind its design choices, as well as surveying technical requirements for DataGen From Schemas, while taking into account the conclusions reached through prior research; afterwards, the development phase is covered, carefully explaining the elaborated components, their properties and the data flow between them, for both the JSON and XML modules; finally, the reader is presented with conclusions taken from this project’s development and possible future work to implement, in order to improve the current solution.
Autores principais:	Cardoso, Hugo André Coelho
Assunto:	Schemas JSON XML Data generation Synthetic data DataGen DSL Dataset Grammar Randomization Open source Data science REST API PEG.js Geração de Dados Dados sintéticos Gramática Aleatoriedade Ciência de dados
Ano:	2022
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade do Minho
Idioma:	inglês
Origem:	RepositóriUM - Universidade do Minho

Registos relacionados

DataGen: JSON/XML Dataset Generator
por: Santos, Filipa Alves dos
Publicado em: (2021)

Alternativas ao XML: YAML e JSON
por: Fonseca, Rúben
Publicado em: (2007)

How can synthetic data generation techniques, enhance the lift accuracy of churn prediction models in imbalanced datasets from the telecommunications sector?
por: Salii, Jill
Publicado em: (2024)

XML schemas for parallel corpora
por: Simões, Alberto
Publicado em: (2011)

XML na demografia histórica: anotação de registos paroquiais
por: Félix, Rafael Fernandes
Publicado em: (2002)

JSON schemas with semantic annotations supporting data translation
por: Amaro, Gonçalo
Publicado em: (2021)

XML parsing in javascript
por: Simões, Alberto
Publicado em: (2017)

Influência do data feminism nas visualizações de dados
por: Azevedo, Beatriz Oliveira de
Publicado em: (2024)

Data analytics para variedade de dados
por: Cruz, Tiago Emanuel Senra da
Publicado em: (2017)

Advancing the design and implementation of Big Data Warehousing Systems
por: Costa, Carlos Filipe Machado Silva
Publicado em: (2019)

Importação, análise de dados e análise preditiva de dados contabilísticos de um ERP
por: Cepa, Diogo Santos e
Publicado em: (2024)

Humanized data cleaning
por: Dias, José Miguel Silva
Publicado em: (2021)

Análise da qualidade dos dados do European Data Portal nas categorias de Governo e Setor Público, Transportes e Educação, Cultura e Desporto
por: Cunha, Rafaela Oliveira da
Publicado em: (2021)

Dados governamentais abertos: situação atual e aprendizagens
por: Oliveira, Fernando Noé Gomes
Publicado em: (2022)

Data center visualization
por: Capa, Pedro Miguel da Costa
Publicado em: (2022)

Historical data management in big databases
por: Simão, José Pedro Ribeiro Nunes
Publicado em: (2017)

Historical data management in big databases
por: Simão, José Pedro
Publicado em: (2017)

Desenvolvimento de um sistema de data warehousing para consolidação de contas
por: Mota, Joana Rita Araújo
Publicado em: (2024)

Proposal of an approach for the design and implementation of a data mesh
por: Machado, Inês Araújo
Publicado em: (2022)

Análise e implementação de melhorias de qualidade de dados no processo de migração da informação de clientes
por: Ordenã, Antónia Melicia de Sousa
Publicado em: (2018)

Os repositórios de dados científicos: estado da arte
por: Rodrigues, Eloy
Publicado em: (2010)

A implementação do RPA nos processos de dados mestre : o caso da Nors
por: Carvalho, Ana Catarina Alvarenga
Publicado em: (2023)

Business analytics na Marinha do Brasil : construindo dashboards para o Anuário Estatístico
por: Júnior, Roberto Nery Dulcetti
Publicado em: (2024)

A corporate metadata dashboard for the BI & analytics department of EDP Comercial : curricular internship in EDP Comercial
por: Pereira, Gonçalo Meira da Cunha
Publicado em: (2022)

O regulamento governação de dados e a proteção de dados pessoais : alguns desafios de interoperabilidade
por: Pinto, Juliana Catarina Sousa
Publicado em: (2024)

Maturidade de Data Governance em Portugal: elaboração de um instrumento de avaliação
por: Guerra, Miguel
Publicado em: (2018)

Document composer: uma aplicação XML para extracção de informação de repositórios XML
por: Ramalho, José Carlos
Publicado em: (2005)

Arquivistas, cientistas e dados abertos: uma equação complexa?
por: Freitas, Maria Cristina Vieira de
Publicado em: (2021)

Avaliar e melhorar a qualidade dos dados com impacto no negócio num processo de migração de dados entre ERPs
por: Soares, Nelson Edgar Moço
Publicado em: (2015)

Web mining on e-learning
por: Campos, Francisco José Casanova Faria
Publicado em: (2022)

SplineAPI: A REST API for NLP Services
por: Vieira, Nuno Miguel Leal Gonçalves
Publicado em: (2015)

Conception and evaluation of data augmentation techniques for tabular data
por: Machado, Pedro Filipe Costa
Publicado em: (2022)

Synthetic data, real impact : a framework for augmenting tabular datasets with synthetic data in machine learning
por: Bitzer, Jann Noah
Publicado em: (2025)

XCSL: XML constraint specification language
por: Jacinto, Marta Henriques
Publicado em: (2002)

XCSL: XML constraint specification language
por: Jacinto, Marta Henriques
Publicado em: (2003)

Repositório genealógico nacional: integração e consolidação de dados
por: Salgado, Agostinho Filipe Fernandes
Publicado em: (2016)

Utilização de algoritmos de sketching na análise de streams de dados: um caso de estudo
por: Certo, Ricardo Jorge Barroso
Publicado em: (2021)

Sistema inteligente para análise do posicionamento de árbitros de futebol
por: Rego, Carlos Manuel Moreira
Publicado em: (2015)

Data analytics para variedade de dados
por: Cruz, Tiago Emanuel Senra da
Publicado em: (2017)

Incorporação de um sistema analítico numa plataforma computacional de avaliação
por: Oliveira, Bárbara Nadine Freitas
Publicado em: (2022)