Ouedraogo Issouf. (2023). Automatisation du pré-traitement des données par l'optimisation métaheuristique. Mémoire de maîtrise, Université du Québec à Chicoutimi.
PDF
2MB |
Résumé
Depuis quelques années, plusieurs entreprises ont commencé à exploiter les données qu’ils ont emmagasinées pour pouvoir extraire des connaissances et faire des prévisions. Une bonne utilisation de ces données permet aux entreprises de comprendre leurs clients et pouvoir améliorer leurs services. Les techniques d’intelligence artificielle se présentent comme des moyens pour révolutionner les prises de décisions. Plus d’entreprises embauchent des data scientists pour concevoir des modèles de prédiction. Le but des data scientists est de concevoir des modèles et de les performer. L’un des défis majeurs rencontré par ces data scientists est le prétraitement des données. Le prétraitement des données impact la qualité du modèle mis en place. Ce problème est dû au fait qu’il n’existe pas une seule bonne manière de prétraité les données. Les techniques utilisées dépendent du problème et du type de donnée. Ce mémoire a pour objectif d’évaluer la possibilité de développer une solution qui permet d’automatiser les opérations de prétraitement des données pour les acteurs de données (data scientistes, chercheurs, etc.). Nous utiliserons le terme pipeline afin de nommer la chaîne de pré-traitement et de traitement des données (de la donnée brute jusqu’à la classification de la donnée). En effet, nous proposons un pipeline qui permet de choisir les meilleures techniques de prétraitements en fonction du problème. Plusieurs techniques sont répertoriées et nous utilisons des techniques d’optimisation métaheuristique pour minimiser le temps de recherche du meilleur modèle. Ces techniques sont par la suite comparées avec des techniques d’optimisation standard comme la recherche par grille. Le pipeline est par la suite testé sur des données d’une entreprise d’assurance automobile du Canada. Les résultats nous montrent que les méthodes d’optimisation métaheuristique sont plus efficaces sur des big data. Elles ont permis de diminuer d’environ 30% le temps nécessaire pour retrouver un bon modèle. En plus, le pipeline se présente comme un outil qui permet au personnel expert ou non de passer moins de temps pour le prétraitement. Le pipeline applique de façon automatisé différentes techniques de prétraitement et propose celui qui convient.
Type de document: | Thèse ou mémoire de l'UQAC (Mémoire de maîtrise) |
---|---|
Date: | 2023 |
Lieu de publication: | Chicoutimi |
Programme d'étude: | Maîtrise en informatique |
Nombre de pages: | 140 |
ISBN: | Non spécifié |
Sujets: | Sciences sociales et humaines > Sciences de la gestion > Assurances Sciences naturelles et génie > Sciences mathématiques > Actuariat (sciences mathématiques) Sciences naturelles et génie > Sciences mathématiques > Informatique Sciences naturelles et génie > Sciences mathématiques > Statistiques |
Département, module, service et unité de recherche: | Départements et modules > Département d'informatique et de mathématique > Programmes d'études de cycles supérieurs en informatique |
Directeur(s), Co-directeur(s) et responsable(s): | Maitre, Julien Bouchard, Bruno Ménélas, Bob-Antoine-Jerry |
Mots-clés: | algorithme génétique, differential evolution, grey wolf optimization, intelligence artificielle, métaheuristique, optimisation, classification, machine learning, preprocessing, assurance, apprentissage automatique, random forest, recherche opérationnelle, d'arbres décisionnels |
Déposé le: | 08 juin 2023 08:09 |
---|---|
Dernière modification: | 08 juin 2023 14:19 |
Éditer le document (administrateurs uniquement)