Publicação

Enhancing analytical method confidence : a data-driven approach for analytical method performance optimization and prediction

Detalhes bibliográficos
Resumo:	Cada medição está sujeita a algum nível de incerteza. A incerteza origina-se dos instrumentos de medição, da amostra que está a ser medida, do ambiente, do operador e de outras fontes. A incerteza de medição é um tema importante para todos os campos de medição, e a medição analítica não é excepção. Nenhum resultado de medição pode ser interpretado corretamente sem pelo menos algum conhecimento da incerteza associada: o utilizador precisa de saber qual é a magnitude da incerteza para que possa fazer as devidas considerações, ou garantir que a incerteza associada é suficientemente pequena para ser negligenciada para o seu propósito específico. Estabelecer um conhecimento e controlo adequados da incerteza de medição e comunicar esse conhecimento ao cliente quando necessário fazem parte das responsabilidades de cada laboratório. Com base nesta premissa, as Autoridades de saúde internacionais, vão ao encontro da solicitação a todos os intervenientes da indústria para a implementação da quantificação da incerteza dos métodos analíticos, de forma a avaliar a eficácia do produto e a segurança do paciente. A incerteza de cada etapa individual pode ser estimada utilizando a análise estatística de um conjunto de medições (abordagem de cima para baixo) ou determinando a incerteza de cada etapa individual (abordagem de baixo para cima). A determinação da incerteza utilizando a abordagem de baixo para cima é exigiria mais trabalho de laboratório e aumentaria consumo de tempo e recursos. A abordagem de cima para baixo, por outro lado, permite uma estimativa suficientemente boa da incerteza total utilizando os dados já gerados durante a validação de um método analítico. Esta abordagem permite manter os procedimentos de validação de métodos analíticos já implementados nos laboratórios sem a necessidade de aumentar a complexidade na execução das atividades de validação do método. Neste projeto, com base nos dados de validação para cromatografia líquida para doseamento, foram explorados vários métodos estatísticos para o cálculo da incerteza: estatística frequentista, bootstrap padrão, bootstrap Bayesiano e inferência Bayesiana com Cadeias de Markov com o Método de Monte Carlo. A frequência estatística é uma abordagem que interpreta a probabilidade como a frequência relativa de eventos ao longo de um grande número de repetições. O método de bootstrap padrão é uma técnica de reamostragem que permite estimar a distribuição de uma estatística de amostra ao gerar múltiplas amostras simuladas a partir dos dados originais, facilitando a avaliação da variabilidade e da incerteza das estimativas. O bootstrap Bayesiano ajusta a distribuição a priori e considera a incerteza associada aos parâmetros estimados. Por outro lado, a inferência Bayesiana utiliza as Cadeia de Markov com Método de Monte Carlo para amostrar a distribuição posterior de um modelo estatístico, permitindo a estimativa e a inferência sobre a incerteza com base na distribuição a priori e nas observações. Os métodos estatísticos foram avaliados e comparados. Os resultados das incertezas calculadas pelos diferentes métodos foram muito semelhantes e consistentes entre si. Ao mesmo tempo, com base nos dados históricos das análises de rotina, foi estabelecido um limite como critério máximo para a incerteza de um método analítico. O limite máximo foi estabelecido como o critério mais conservador e que detectasse o maior número de métodos analíticos cujo desvio padrão estaria acima desse limite. A abordagem mais conservadora foi 20 por cento do range da especificação. A selecção do método mais adequado passou por envolver os dados históricos das análises de rotina e de desvios de análises associados ao método analítico, em que foram comparados com a presença de desvios associados aos métodos com maior incerteza estimada, com o rácio de número de desvios por valores reportáveis e com o desvio padrão de todos os resultados que estão dentro da especificação, que envolve todas as fontes de variabilidade (lote de produto, equipamentos diferentes, analistas diferentes, etc). O método estatístico escolhido foi o método mais conservador e que conseguiria detectar mais resultados fora da especificação e que estava alinhado com o threshold para a incerteza proposto anteriormente. Embora a inferência Bayesiana fosse o método estatístico com melhor prestação, a frequência estatística teve resultados muito próximos. Por ser um método mais simples e que requer menos poder computacional, a frequência estatística foi o método seleccionado. Após a estimativa da incerteza estatística, com base nos dados das condições dos métodos e das características dos dados, criaram-se modelos de aprendizagem automática para prever a incerteza de novos métodos e identificar as variáveis que têm maior influência na incerteza total do método analítico. Para isto, foi necessário criar um dataframe com todos os dados de fontes diferente e tratar estes mesmos dados. O tratamento destes dados envolveu a limpeza e transformação das variáveis numéricas (escalonização) e das variáveis categóricas (convertidas para numéricas). Além disso, houve a necessidade de se criar novas variáveis de forma conseguir incorporar a percentagem de solventes/reagentes/produtos específicos. Após a criação do dataframe, foi avaliada distribuição da incerteza dos diferentes métodos e verificou-se que havia alguns valores atípicos. Este valores atípicos foram revistos e não foram associados a erros de introdução. Os valores atípicos são valores reais e que são uma informação valiosa no dataset. A distância de Cook foi utilizada para confirmar que estes valores atípicos tinham influência estatística. De forma a conseguir uma distribuição com uma forma mais normal, os dados foram transformados. Para esta transformação, foram testadas 3 abordagens: a transformação logarítmica, a transformação de raiz quadrada e a transformação de box-cox. A transformação de box-cox foi a que permitiu ter uma distribuição normal da incerteza e com menos valores fora de tendência. Após o processamento dos dados, fez-se a seleção das variáveis mais significativas pelo modelo da Floresta Aleatória. Após a selecção das características mais importantes, modelos de aprendizagem automática foram criados para estimar a incerteza de novos métodos com base nas condições de operação dos métodos e nas características dos produtos. Os modelos usados foram: Árvore de Decisão, Regressão Linear Múltipla, Random Forest (Floresta Aleatória), Regressão de Ridge, Lasso (Operador de Seleção e Encolhimento Absoluto Mínimo) e XGBoost (Extreme Gradient Boosting). Os modelos foram validados e comparados entre si para determinar se podem ser utilizados para prever a incerteza de um método com base nas condições dos métodos analíticos e nas características dos produtos. Os modelos como a Árvore de Decisão, Floresta Aleatória e XGBoost obtidos tiveram um bom desempenho em que explicavam em 75 por cento a variância nos dados acima e com um baixo erro associado. Os restantes modelos tiveram um desempenho mais pobre, com maior erro associado e apenas explicavam cerca de 50 porcento de variância nos dados. O modelo seleccionado foi o XGBoost, pois foi o modelo com melhores resultados e mais robusto. Este modelo foi avaliado com um conjunto de dados independentes dos dados de treino e teste. As métricas obtidas foram muito semelhantes e, através de uma visualização gráfica, pode-se verificar que os dados previstos pelo modelo são muito próximos dos dados reais. Com base nestes resultados, os objectivos deste projecto foram atingidos: estabelecer um método estatístico para calcular a incerteza total dos métodos analíticos e usar estes valores e os dados das condições de operação dos métodos analíticos e os dados das características dos produtos para criar um modelo preditivo para prever a incerteza de novos métodos e que tornasse mais eficiente o desenvolvimento destes ao identificar as variáveis com mais influência, aumentando assim a confiança no desempenho dos métodos analíticos.
Autores principais:	Araújo, Ana Sofia Fernandes
Assunto:	Incerteza Métodos estatísticos Aprendizagem automática Métodos analíticos Validação Teses de mestrado - 2024
Ano:	2024
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso restrito
Instituição associada:	Universidade de Lisboa
Idioma:	inglês
Origem:	Repositório da Universidade de Lisboa