Constellation, le dépôt institutionnel de l'Université du Québec à Chicoutimi

Détection d’images faciales générées par StyleGAN à l’aide des transformateurs de vision et de l’attention latente

Toure Sokhna Bally. (2025). Détection d’images faciales générées par StyleGAN à l’aide des transformateurs de vision et de l’attention latente. Mémoire de maîtrise, Université du Québec à Chicoutimi.

[thumbnail of Toure_uqac_0862N_11332.pdf] PDF
1MB

Résumé

L’évolution rapide des réseaux antagonistes génératifs (GAN), en particulier StyleGAN, a conduit à une augmentation sans précédent des images synthétiques hautement réalistes. Bien que cette technologie ouvre des perspectives passionnantes dans divers domaines, elle pose des défis importants en matière de sécurité numérique et d’authenticité du contenu. Pour répondre à ce problème, notre étude se concentre sur le développement d’une méthode robuste de détection des images faciales générées par StyleGAN. Nous proposons un modèle Vision Transformers (ViT) optimisé qui tire parti de l’apprentissage par transfert et intègre un module d’attention latente. Cette approche améliore les capacités de détection du modèle et permet d’identifier efficacement les images générées par StyleGAN. Une évaluation complète qui comprend de vastes ensembles de données d’images réelles et générées, démontre les performances remarquables du modèle. Le modèle proposé atteint une précision de 99,83%, un AUC de 1 et un score F1 de 0,9983. Le modèle présente de fortes capacités de généralisation sur des ensembles de données externes, ce qui confirme son efficacité dans divers scénarios de détection de deepfake. En outre, grâce à l’intégration tardive de l’attention, le coût de calcul peut être réduit de 42%, atteignant une réduction de 85% pour un ensemble de données spécifique. Les résultats obtenus, comparés à ceux de six méthodes de référence, montrent que notre approche offre de meilleures performances pour détecter les deepfakes générés par StyleGAN. Cette méthode contribue ainsi efficacement à l’authentification des contenus numériques et à la détection d’images synthétiques.

The rapid advancement of Generative Adversarial Networks (GANs), particularly StyleGAN, has led to an unprecedented increase in highly realistic synthetic images. While this technology opens up exciting opportunities across various fields, it poses significant challenges to digital security and content authenticity. To address this issue, our study focuses on developing a robust method for detecting facial images generated by StyleGAN. We propose an optimized Vision Transformers (ViT) model that leverages transfer learning and incorporates a latent attention module. This approach enhances the model’s detection capabilities, effectively identifying StyleGAN-generated images. Acomprehensive evaluation, which includes large datasets of real and generated images, demonstrates the model’s remarkable performance. The proposed model achieves an accuracy of 99.83%, an AUC of 1, and an F1-score of 0.9983. Furthermore, the model exhibits strong generalization abilities on external datasets, confirming its efficacy in various deepfake detection scenarios. Furthermore, due to the late attention integration, the computational cost can be reduced by 42%, achieving an 85% reduction for a specific dataset. Weextensively validated our approach on three diverse StyleGAN-generated deepfake datasets and compared its performance to six baseline methods, demonstrating its superiority in detecting StyleGAN-generated deepfakes and its contribution to digital content authentication and synthetic image detection.

Type de document:Thèse ou mémoire de l'UQAC (Mémoire de maîtrise)
Date:2025
Lieu de publication:Chicoutimi
Programme d'étude:Maîtrise en informatique
Nombre de pages:74
ISBN:Non spécifié
Sujets:Sciences naturelles et génie > Sciences mathématiques > Informatique
Département, module, service et unité de recherche:Départements et modules > Département d'informatique et de mathématique > Programmes d'études de cycles supérieurs en informatique
Directeur(s), Co-directeur(s) et responsable(s):Ménélas, Bob-Antoine-Jerry
Nakouri, Haïfa
Mots-clés:attention latente, deepfake, détection, images générées, StyleGAN, transformateurs de vision
Déposé le:28 juill. 2025 09:00
Dernière modification:31 juill. 2025 13:39
Afficher les statistiques de telechargements

Éditer le document (administrateurs uniquement)

Services de la bibliothèque, UQAC
555, boulevard de l'Université
Chicoutimi (Québec)  CANADA G7H 2B1
418 545-5011, poste 5630