Constellation, le dépôt institutionnel de l'Université du Québec à Chicoutimi

Prédiction de la concentration de matériaux dans les formulations cosmétiques à l’aide de modèles d’apprentissage automatique

Frantz Segovia Christian Gonzalo. (2024). Prédiction de la concentration de matériaux dans les formulations cosmétiques à l’aide de modèles d’apprentissage automatique. Mémoire de maîtrise, Université du Québec à Chicoutimi.

[thumbnail of FrantzSegovia_uqac_0862N_11138.pdf] PDF
1MB

Résumé

L’industrie des produits de beauté détient une position considérable sur la scène mondiale, générant des ventes dépassant des centaines de milliards de dollars américains à l’échelle mondiale. Ce marché est hautement compétitif, caractérisé par la domination des principaux acteurs mondiaux. La détermination des concentrations idéales d’ingrédients est une procédure importante dans le secteur des cosmétiques pour les formulations chimiques, dans le but de garantir la qualité, l’efficacité et l’économie liées aux produits développés. Dans ce contexte, l’interdépendance complexe entre les matériaux représente un défi significatif, exigeant une attention particulière pour la prédiction des concentrations de matériaux, afin d’éviter les inefficacités et les réactions indésirables éventuelles déclenchées par le produit final. La capacité à prédire avec plus de justesse les concentrations d’ingrédients permet la sécurité et l’efficacité, bien que la détermination des concentrations appropriées pour chaque matériau nécessite une évaluation prudente et pondérée. La détermination de la concentration des matériaux dans les formulations cosmétiques est un processus complexe qui commence par la formulation de la recette, en tenant compte des réglementations du secteur, qui établissent des limites de sécurité et d’efficacité pour les matériaux utilisés. La concentration des matériaux dans les formulations cosmétiques impacte directement leur stabilité et leur efficacité. Par conséquent, suggérer des concentrations de matériaux pour les formulations chimiques doit tenir compte de ces défis inhérents à la détermination des concentrations de matériaux chimiques et cosmétiques. Le domaine de l’apprentissage automatique est inséré dans le contexte de l’Intelligence Artificielle (IA) et implique l’application d’algorithmes informatiques pour transformer des données empiriques en modèles utilisables. Ces algorithmes permettent de comprendre les propriétés des ensembles de données analysés, en abstrayant les motifs sous-jacents à travers un modèle, en prédisant les valeurs inconnues basées sur le modèle généré et en détectant les comportements anormaux observés. Son objectif principal est de développer un modèle qui présente de hautes performances non seulement pendant l’entraînement, mais aussi lors de son application à un ensemble de tests ou à de nouvelles données. Jusqu’à présent, nous ne connaissons pas dans la littérature des recherches ayant utilisé des modèles d’apprentissage automatique pour suggérer la concentration de matériaux dans les formulations cosmétiques. Notre objectif est d’identifier la méthodologie optimale pour prédire la concentration de matériaux, de manière à ce qu’elle puisse être appliquée comme recommandation dans la production de formulations cosmétiques. Pour atteindre nos objectifs, nous avons utilisé quatre algorithmes d’apprentissage automatique : Random Forest Regressor (RFR), Extreme Gradient Boosting (XGBoost), k-Nearest Neighbors (k-NN) et Multi-Layer Perceptron (MLP). Nous avons sélectionné des mesures de performance, telles que Mean Squared Error (MSE), Root Mean Squared Error (RMSE), Mean Absolute Error (MAE) et Coefficient de détermination (R2), pour garantir une évaluation robuste et fiable des modèles proposés. Nous avons extrait et modélisé un total de 1679522 enregistrements avec lesquels nous avons entraîné et testé les quatre modèles d’apprentissage automatique. La troisième approche a été utilisée pour effectuer les prédictions, car parmi les approches développées, c’était celle qui obtenait les meilleurs indicateurs de performance. Nous avons également développé une application où l’utilisateur final pourra effectuer les prédictions à travers une Interface Graphique Utilisateur (IGU). Les résultats obtenus indiquent que le modèle RFR a présenté les meilleurs résultats parmi les modèles testés, avec une valeur de R2 de 0,66892, démontrant que le modèle est capable d’expliquer environ 66,89% de la variabilité des données. Cette étude représente une étape importante vers le développement de modèles prédictifs pour l’industrie chimique et cosmétique, mettant en évidence l’importance de l’application de techniques d’apprentissage automatique et de validation croisée dans la résolution de problèmes dans ce domaine.

The beauty products industry holds a considerable position in the global landscape, generating sales that exceed hundreds of billions of US dollars worldwide. This market is highly competitive, characterized by the dominance of major global players. Determining the ideal concentrations of ingredients is an important procedure in the cosmetics sector for chemical formulations, aiming to ensure the quality, efficacy, and economy related to the developed products. In this context, the complex interdependence among materials represents a significant challenge, requiring special attention to predicting material concentrations to avoid inefficiencies and potential undesired reactions triggered by the final product. The ability to predict ingredient concentrations more accurately allows for safety and efficacy, although determining suitable concentrations for each material requires careful and thoughtful assessment. Determining the concentration of materials in cosmetic formulations is an intricate process that begins with recipe formulation, considering industry regulations that establish safety and efficacy limits for the materials used. The concentration of materials in cosmetic formulations directly impacts their stability and efficacy. Therefore, suggesting material concentrations for chemical formulations must consider these inherent challenges in determining chemical and cosmetic material concentrations. The field of machine learning is embedded in the context of Artificial Intelligence (AI) and involves the application of computational algorithms to transform empirical data into usable models. These algorithms enable understanding the properties of analyzed datasets, abstracting underlying patterns through a model, predicting unknown values based on the generated model, and detecting observed anomalous behaviors. Its main objective is to develop a model that exhibits high performance not only during training but also when applied to a test set or new data. To date, research utilizing machine learning models to suggest material concentrations in cosmetic formulations is lacking in the literature. Our goal is to identify the optimal methodology for predicting material concentration, so it can be applied as a recommendation in the production of cosmetic formulations. To achieve our goals, we employed four automated learning algorithms : Random Forest Regressor (RFR), Extreme Gradient Boosting (XGBoost), k-Nearest Neighbors (k-NN), and Multi-Layer Perceptron (MLP). We selected performance measures such as Mean Squared Error (MSE), Root Mean Squared Error (RMSE), Mean Absolute Error (MAE), and Coefficient of Determination (R2) to ensure a robust and reliable evaluation of the proposed models. We extracted and modeled a total of 1679522 records, with which we trained and tested the four machine learning models. The third approach was used to make predictions, as it obtained the best performance indicators among the developed approaches. We also developed an application where the end user can make predictions through a Graphical User Interface (GUI). The results obtained indicate that the RFR model showed the best results among the tested models, with an R2 value of 0.66892, demonstrating that the model can explain about 66.89% of the data variability. This study represents an important step towards the development of predictive models for the chemical and cosmetic industry, highlighting the importance of applying machine learning techniques and cross-validation in problem-solving in this field.

Type de document:Thèse ou mémoire de l'UQAC (Mémoire de maîtrise)
Date:2024
Lieu de publication:Chicoutimi
Programme d'étude:Maîtrise en informatique
Nombre de pages:98
ISBN:Non spécifié
Sujets:Sciences naturelles et génie > Sciences mathématiques > Informatique
Sciences naturelles et génie > Sciences naturelles > Chimie
Département, module, service et unité de recherche:Départements et modules > Département d'informatique et de mathématique > Programmes d'études de cycles supérieurs en informatique
Directeur(s), Co-directeur(s) et responsable(s):Bouchard, Kévin
Mots-clés:concentration, cosmétiques, formulations chimiques, intelligence artificielle, prédiction, Random Forest Regressor, Extreme Gradient Boosting, k-Nearest Neighbors, multi-layer perceptron, matériaux
Déposé le:08 mai 2024 21:20
Dernière modification:09 mai 2024 22:33
Afficher les statistiques de telechargements

Éditer le document (administrateurs uniquement)

Creative Commons LicenseSauf indication contraire, les documents archivés dans Constellation sont rendus disponibles selon les termes de la licence Creative Commons "Paternité, pas d'utilisation commerciale, pas de modification" 2.5 Canada.

Bibliothèque Paul-Émile-Boulet, UQAC
555, boulevard de l'Université
Chicoutimi (Québec)  CANADA G7H 2B1
418 545-5011, poste 5630