Constellation, le dépôt institutionnel de l'Université du Québec à Chicoutimi

Développement d’un système de traduction NL-SQL pour le domaine de l’assurance avec implémentation de technique d’augmentation de données

Kabre Djamilatou Wendmalgré. (2025). Développement d’un système de traduction NL-SQL pour le domaine de l’assurance avec implémentation de technique d’augmentation de données. Mémoire de maîtrise, Université du Québec à Chicoutimi.

[thumbnail of Kabre_uqac_0862N_11291.pdf] PDF
3MB

Résumé

Nous vivons à une époque où les entreprises produisent chaque jour d’importantes quantités de données, l’exploitation optimale de ces dernières demeure un défi, en particulier lorsqu'il s'agit d'interroger des bases de données structurées. Face à cette problématique, nous avons développé un système capable de générer des requêtes SQL à partir du langage naturel, offrant ainsi aux experts comme aux non-experts la possibilité d’interagir efficacement avec ces bases de données. Cette recherche a pour objectif principal l’implémentation de deux grandes catégories de modèles dont Seq2Seq représentant les modèles classiques et LLAMA 3 représentant les modèles LLM. Et comme second objectif l’application d’une méthode d’augmentation de données afin de performer le modèle. A la fin de l’expérimentation, une analyse comparatives détaillées des deux approches scientifiques de traduction NL-SQL est faite pour donner une vue d’ensemble et les cas d’utilisations auxquels chaque modèle est mieux approprié. Le modèle Seq2Seq a été testé sur deux ensembles de données dont SPIDER, un corpus standard pour la traduction NL-SQL, et ASSUR-DB un ensemble de données conçu par nous-même représentant des données du domaine de l’assurance. Pour évaluer ces modèles nous les avons expérimentés sous plusieurs facettes, sur des requêtes simples et complexes. Nous obtenons comme résultat pour Seq2Seq sans augmentation de données un taux du score bleu à 52,68 % sur les requêtes complexes et observons un score bleu de 92,66 % lorsqu’il est expérimenté sur les requêtes simples de SPIDER. Ensuite nous appliquons des techniques d’augmentation de données au modèle qui nous permet d’atteindre 55,54 % sur les requêtes complexes. Lorsque nous appliquons le modèle Seq2Seq sur l’ensemble de données d’assurance (ASSUR-DB), nous obtenons un score bleu de 57,56 % sans augmentation et 60,73% après augmentation. Ces résultats démontrent que l’augmentation de données joue un rôle déterminant dans l’amélioration des performances de Seq2Seq, en particulier dans des contextes de données limitées. Quant à LLAMA 3, mous l’avons implémenté en utilisant le framework LANGCHAIN, couplé d’un système de génération augmentée par récupération (RAG), pour mieux spécialiser le modèle dans des tâches spécifiques de génération de données types aux assurances. Les résultats expérimentaux ont montré un score de similarité cosinus de 95,38% pour les requêtes générées, illustrant la capacité de LLAMA 3 à produire des requêtes SQL correspondantes. Cette étude nous permet de révéler que Seq2Seq est performant uniquement pour les requêtes simples car il semble ne pas supporter les requêtes complexes en témoigne les scores moyens que nous obtenons sur les deux ensembles de données testés, en revanche, LLAMA 3, avec ses capacités à grande échelle, se distingue par sa polyvalence et ses performances en générant autant de requêtes simples que complexes.

Type de document:Thèse ou mémoire de l'UQAC (Mémoire de maîtrise)
Date:2025
Lieu de publication:Chicoutimi
Programme d'étude:Maîtrise en informatique
Nombre de pages:78
ISBN:Non spécifié
Sujets:Sciences naturelles et génie > Sciences mathématiques > Informatique
Sciences naturelles et génie > Sciences mathématiques > Mathématiques appliquées
Sciences naturelles et génie > Sciences mathématiques > Statistiques
Département, module, service et unité de recherche:Départements et modules > Département d'informatique et de mathématique > Programmes d'études de cycles supérieurs en informatique
Directeur(s), Co-directeur(s) et responsable(s):Maitre, Julien
Bouchard, Bruno
Mots-clés:DBPAL, Langchain, LlaMA 3, NL-SQL, RAG, Seq2Seq-SQL, artificial intelligence, paraphrasing, insurance
Déposé le:29 avr. 2025 15:48
Dernière modification:01 mai 2025 16:54
Afficher les statistiques de telechargements

Éditer le document (administrateurs uniquement)

Creative Commons LicenseSauf indication contraire, les documents archivés dans Constellation sont rendus disponibles selon les termes de la licence Creative Commons "Paternité, pas d'utilisation commerciale, pas de modification" 2.5 Canada.

Services de la bibliothèque, UQAC
555, boulevard de l'Université
Chicoutimi (Québec)  CANADA G7H 2B1
418 545-5011, poste 5630