Constellation, le dépôt institutionnel de l'Université du Québec à Chicoutimi

Data pre-processing: assistance to non-expert users

Darmstadt-Bélanger Hans. (2024). Data pre-processing: assistance to non-expert users. Mémoire de maîtrise, Université du Québec à Chicoutimi.

[thumbnail of DarmstadtBxE9langer_uqac_0862N_11126.pdf] PDF
1MB

Résumé

In a typical machine-learning project, the data pre-processing step is the most time consuming and one of the most relevant steps. The quality of the pre-processing can have important impacts on the result of the analysis. The importance to get this step right is contrasted with the difficulty non-expert users may have to perform pre-processing tasks. Pre-processing is typically performed by writing a script in a programming language such as Python or R. Not every person that needs to pre-process data is a well-versed computer programmer. In the Insurance industry, actuarial professionals often build and train machine-learning models such as generalized linear models. They are qualified due to their advanced knowledge of mathematical models. However, their programming abilities are often more limited. These actuarial professionals and other non-expert users tend to spend a disproportionate amount of time to write the pre-processing scripts as compared to their peers with a career machine learning or information technologies background. We set out to develop a simple, yet powerful program to leverage the non-experts understanding of data manipulation concepts without needing them to know how to write the scripts to perform the desired pre-processing transformations. The tool takes the form of an ETL (extract, transform, and load) type of program. While other ETL programs are publicly available already, their main objective is to homogenise incoming and new data before it gets stored in the client company’s data warehouse. The difference in focus between our tool and the existing alternatives translates into a different feature set for the end user. The resulting program, its architecture, and the amount of time it saves, which hovers around a 50% reduction under ideal conditions, are examined.

Dans un projet typique d'apprentissage machine, l'étape de prétraitement des données est la plus longue et l'une des plus importantes. La qualité du prétraitement peut avoir un impact important sur le résultat de l'analyse. L'importance de la réussite de cette étape et la difficulté que les utilisateurs non experts peuvent avoir à effectuer des tâches de prétraitement forment une barrière à l’entrée pour les nouveaux utilisateurs de technologies émergentes dans le domaine de l’apprentissage machine. Le prétraitement est généralement effectué en écrivant un script dans un langage de programmation tel que Python ou R. Toutes les personnes qui ont besoin de prétraiter des données ne sont pas des programmeurs informatiques chevronnés. Dans le secteur de l'assurance, les professionnels de l'actuariat créent et entrainent souvent des modèles d'apprentissage automatique tels que les modèles linéaires généralisés. Ils sont qualifiés en raison de leurs connaissances avancées des modèles mathématiques. Cependant, leurs capacités de programmation sont souvent plus limitées. Ces professionnels de l'actuariat et d'autres utilisateurs non experts ont tendance à consacrer un temps disproportionné à l'écriture des scripts de prétraitement par rapport à leurs pairs ayant une formation dans l'apprentissage automatique ou les technologies de l'information. Nous avons entrepris de développer un programme simple mais puissant pour tirer parti de la compréhension des concepts de pré-traitement des données par les non-experts sans qu'ils aient besoin de savoir comment écrire les scripts pour effectuer les transformations de prétraitement souhaitées. L'outil prend la forme d'un programme de type ETL (extraction, transformation et chargement). Bien que d'autres programmes ETL soient déjà disponibles au public, leur principal objectif est d'homogénéiser les données entrantes avant qu'elles ne soient stockées dans l'entrepôt de données d’une entreprise. La différence d'objectif entre notre outil et les alternatives existantes se traduit par un ensemble de fonctionnalités différentes pour l'utilisateur final. Nous examinons le programme qui en résulte, son architecture et le temps qu'il permet de gagner, qui tourne autour d'une réduction de 50 % dans des conditions idéales.

Type de document:Thèse ou mémoire de l'UQAC (Mémoire de maîtrise)
Date:2024
Lieu de publication:Chicoutimi
Programme d'étude:Maîtrise en informatique
Nombre de pages:74
ISBN:Non spécifié
Sujets:Sciences naturelles et génie > Sciences mathématiques > Informatique
Département, module, service et unité de recherche:Départements et modules > Département d'informatique et de mathématique > Programmes d'études de cycles supérieurs en informatique
Directeur(s), Co-directeur(s) et responsable(s):Bouchard, Bruno
Maitre, Julien
Ménélas, Bob-Antoine-Jerry
Mots-clés:big data, preprocessing, machine learning
Déposé le:18 avr. 2024 10:24
Dernière modification:18 avr. 2024 23:30
Afficher les statistiques de telechargements

Éditer le document (administrateurs uniquement)

Creative Commons LicenseSauf indication contraire, les documents archivés dans Constellation sont rendus disponibles selon les termes de la licence Creative Commons "Paternité, pas d'utilisation commerciale, pas de modification" 2.5 Canada.

Bibliothèque Paul-Émile-Boulet, UQAC
555, boulevard de l'Université
Chicoutimi (Québec)  CANADA G7H 2B1
418 545-5011, poste 5630