Rivard Sylvain Robert. (2016). Prédiction de gènes parallélisée de haute performance dans MATLAB. Mémoire de maîtrise, Université du Québec à Chicoutimi.
PDF
10MB |
Résumé
Ce travail s’inscrit dans un cadre de recherche global du génome humain. Il s'intéresse particulièrement à l'identification de milliers de gènes qui demeurent toujours inconnus à ce jour. Afin de pouvoir effectuer cette tâche sur une plateforme informatique, les séquences d’acide désoxyribonucléique (ADN) seront traitées comme étant des signaux pour permettre l’usage des techniques en traitement numérique de signaux (TNS). Cette approche permettra de réduire les coûts et surtout, le temps que prennent les chercheurs à trouver un gène impliqué dans une maladie. Le projet est divisé en deux volets. Le premier volet de cette recherche consiste à réduire de façon importante les temps de calcul de certains algorithmes en bio-informatique. Cette recherche propose une méthode de mise en oeuvre des algorithmes de prédiction de gènes en parallèle avec le logiciel MATLAB. Les approches proposées sont basées soit sur l’algorithme de Goertzel ou de FFT en utilisant diverses procédures de parallélisme sur une unité centrale de traitement (CPU) et à une unité de processeur graphique (GPU). Les résultats montrent que l’utilisation d’une approche simple, c’est-à-dire sans modification de l’implémentation dans MATLAB, peut nécessiter plus de 4 h et demie pour le traitement de 15 millions de paires de bases (pb) alors qu’une implémentation optimisée peut effectuer la même tâche en moins d’une minute. Nous avons obtenu les meilleurs résultats avec l’implémentation sur GPU qui a pu compléter l'analyse en 57 s, ce qui est plus de 270 fois plus rapide qu’une approche conventionnelle. Ce premier volet de recherche propose deux stratégies pour accélérer le traitement des données du génome humain et s’appuie sur les différents mécanismes de parallélisation. Lorsque l'implantation se fait avec un CPU, les résultats indiquent qu'il serait préférable d'utiliser une fonction de bas niveau (MEX) afin d'augmenter la vitesse d’exécution. De plus, l'usage des boucles parallèles (PARFOR) doit être effectué dans un ordre précis pour bénéficier au maximum du parallélisme dans l’implantation de Goertzel. Lorsque l'implantation est exécutée sur le GPU, les données doivent être segmentées en plus petits blocs afin d'optimiser les temps de traitement. En effet, les blocs qui sont trop gros risquaient de dépasser la taille de la mémoire tandis que des blocs trop petits ne permettaient pas à l'usager de bénéficier pleinement du parallélisme. Dans le second volet, nous avons poursuivi avec l’implantation d’un second algorithme qui permet de cibler les régions susceptibles à la présence de gènes. Cet algorithme se base sur les hexamères qui sont de courtes séquences d’ADN composées de 6 nucléotides. De toutes les variations d’hexamères possibles (4096), seulement 40 de celles-ci se retrouvent plus souvent dans les régions codantes que non codantes. Les autres hexamères se retrouvent autant dans les introns que dans les exons. Il est donc possible de survoler les séquences d’ADN et, selon la présence ou l’absence de certains hexamères, de prédire quelles régions sont codantes. Lors de la superposition des deux approches, soit l’analyse en fréquence et l’analyse des hexamères, il est possible de mieux cibler les zones où l’on peut retrouver de nouveaux gènes. Les analyses effectuées avec les différents algorithmes présentent des valeurs qui témoignent de la probabilité de retrouver un gène dans une région donnée. Pour compléter le processus de prédiction, il est important de déterminer un critère à partir duquel le programme décide qu’il s’agit réellement d’un gène. Ce critère est basé sur trois paramètres, soient le seuil positif, le seuil négatif et taille de la fenêtre. Afin de déterminer les valeurs optimales, les trois paramètres ont été balayés et la meilleure combinaison a été identifiée. L’approche proposée dans ce mémoire permet d’analyser de grandes séquences d’ADN en peu de temps afin d’identifier des zones susceptibles de coder un gène. Ce processus est important puisqu’on estime qu’il reste encore quelques milliers de gènes inconnus qui peuvent être responsables de plusieurs maladies génétiques. Nous espérons que ce travail contribuera à la découverte de nouveaux gènes pour ainsi mieux diagnostiquer certaines maladies génétiques.
Type de document: | Thèse ou mémoire de l'UQAC (Mémoire de maîtrise) |
---|---|
Date: | Juin 2016 |
Lieu de publication: | Chicoutimi |
Programme d'étude: | Maîtrise en ingénierie |
Nombre de pages: | 84 |
ISBN: | Non spécifié |
Sujets: | Sciences naturelles et génie > Génie > Génie biomédical et génie biochimique Sciences naturelles et génie > Génie > Génie électrique et génie électronique Sciences de la santé > Sciences médicales > Génétique |
Département, module, service et unité de recherche: | Départements et modules > Département des sciences appliquées > Programmes d'études de cycles supérieurs en ingénierie |
Directeur(s), Co-directeur(s) et responsable(s): | Bui, Hung-Tien |
Mots-clés: | FFT, gènes, hexamères, MATHLAB, prédiction |
Déposé le: | 17 févr. 2017 08:15 |
---|---|
Dernière modification: | 21 févr. 2017 00:51 |
Éditer le document (administrateurs uniquement)