Document details

Modélisation prédictive des interactions entre bactéries et virus bactériophages

Author(s): Leite , Diogo Manuel Carvalho

Date: 2016

Persistent ID: http://hdl.handle.net/10400.22/8713

Origin: Repositório Científico do Instituto Politécnico do Porto

Subject(s): Phagothérapie; Apprentissage automatique; Phage therapy; Machine learning; Sistemas de Informação e Conhecimento


Description

Actuellement, il existe un grave problème de santé publique dû au fait que les bactéries développent des résistances aux antibiotiques, notamment à cause de la surconsommation d’antibiotiques. Achetés en pharmacie, consommé dans les hôpitaux ou indirectement via la nourriture que l’être humain consomme tous les jours, la consommation de ceux-ci ne cesse de s’accroitre. La phagothérapie, ou le traitement par bactériophages est une alternative prometteuse aux antibiotiques, qui consiste à utiliser des virus « mangeurs » de bactéries pour soigner diverses infections d’origine bactérienne. Cette technique de soins possède plusieurs des avantages des antibiotiques sans ses inconvénients, puisque les bactériophages sont très spécifiques et ne s’attaquent par conséquent qu’aux bactéries à l’origine de l’infection, évitant ainsi les effets secondaires dû à la consommation d’antibiotiques par exemple sur la flore intestinale. Le défi lié à cette technique consiste à identifier rapidement le ou les bactériophages capables d’attaquer une bactérie en particulier, une procédure actuellement réalisée en laboratoire en testant toutes les combinaisons possibles, ce qui est coûteux et nécessite plusieurs jours. La solution explorée dans ce projet consiste en l’utilisation de techniques computationnelles pour prédire in silico si une paire bactérie-bactériophage est capable d’interagir ou pas. Parti d’une base de données contenant plus de 1'000 paires bactérie-bactériophage positives et plus de 1'000 paires négatives pour lesquelles le génome de la bactérie et du bactériophage sont connus, la procédure suivante a été mise en place: 1. Extraction de variables pour créer 19 sets de données utilisés pour entraîner les modèles d’apprentissage automatique ; 2. Sélection et entrainement des algorithmes avec un grand nombre de configurations; 3. Recours à l’approche d’agrégation de modèle pour élaborer un système de votation ; 4. Analyse des résultats. Le modèle final qui a été développé a permis d’atteindre une performance de plus de 90% d’accuracy, de mesure F1, de sensibilité et de spécificité sur un set de validation (test set) qui n’avait jamais été utilisé ni pour l’entraînement ni pour la validation croisée. Les bons résultats permettent d’affirmer que l’utilisation de l’apprentissage automatique semble être une approche prometteuse pour répondre à ce problème.

Currently, there is a serious public health problem because bacteria develop resistance to antibiotics, particularly because of the overuse of antibiotics. Purchased in pharmacies, consumed in hospitals or indirectly via the food that humans consume daily, the consumption of these continues to increase. Phage therapy, i.e. treatment with bacteriophages, is a promising alternative to antibiotics, which involves the use of viruses, which are literally "eaters" of bacteria, to treat various infections caused by bacteria. This treatment technique has several of the advantages of antibiotics, without their drawbacks. Indeed, bacteriophages are highly specific and therefore only attack bacteria causing the infection, avoiding side effects due to antibiotics consumption, e.g. on the intestinal flora. The challenge of this technique is to quickly identify the bacteriophages that attack a particular bacterium, a procedure currently performed in laboratories by testing all possible combinations, which is expensive and requires several days. The solution explored in this project is the use of computational techniques to predict whether a pair of bacteriophage-bacterium is able to interact or not in silico. For a database containing more than 1,000 positive pairs of bacteria-bacteriophage and over 1,000 negative pairs for which the genome of both the bacterium and the bacteriophage are known, the following procedure has been put in place: 1. Extraction of features to create 19 datasets used to train machine learning models; 2. Selection and training of the algorithms with a large number of configurations; 3. Use of ensemble-learning modeling approaches to develop a voting system; 4. Results analysis. The final model that was developed has achieved a performance of more than 90% accuracy, measurement F1, sensitivity and specificity on a validation set (test set) that had never been used for training nor for cross-validation. These good results let us conclude that the use of machine learning seems to be a promising approach to address this problem.

Document Type Master thesis
Language French
Advisor(s) Martins, Antonio Constantino Lopes
Contributor(s) Repositório Científico do Instituto Politécnico do Porto
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents