Constellation, le dépôt institutionnel de l'Université du Québec à Chicoutimi

Serverless architectures for scalable peer-to-peer machine learning training

Barrak Mohamed Amine. (2024). Serverless architectures for scalable peer-to-peer machine learning training. Thèse de doctorat, Université du Québec à Chicoutimi.

[thumbnail of Barrak_uqac_0862D_11223.pdf] PDF
5MB

Résumé

Serverless computing has revolutionized cloud-computing paradigms by allowing developers to focus on application functionality without managing the underlying infrastructure. It achieves this through automatic resource allocation and a pay-as-you-go pricing model, which optimizes costs and enhances scalability. However, the application of serverless architectures to machine learning (ML) training introduces significant challenges due to the stateless and ephemeral nature of serverless functions, which complicates tasks requiring persistent state and extensive communication. Different ML training architectures, such as centralized and distributed systems, present unique challenges in a serverless environment. Centralized training, which relies on a single powerful machine or cluster, introduces a single point of failure, making it vulnerable to disruptions and reducing reliability. Distributed training systems, including peer-to-peer networks, require significant coordination and data transfer between nodes, which is challenging to manage with serverless functions due to the need for continuous state synchronization and the overhead of communication. Despite these challenges, the dynamic resource allocation, scalability, and cost benefits of serverless computing present significant opportunities for optimizing ML training. These benefits are particularly valuable in application domains such as real-time data processing, IoT, and edge computing, where demand can be highly variable and unpredictable. This dissertation investigates the hypothesis that serverless computing can significantly enhance ML training efficiency through advanced techniques that address these inherent challenges. The research is structured around four sub-hypotheses: (1) Serverless functions can accelerate parallel gradient computation during ML training, although they introduce challenges related to state management, synchronization, and communication overhead; (2) In-database ML operations, such as gradient aggregation and model updates, can effectively reduce communication overhead in serverless distributed training environments by minimizing data transfer, with tools like RedisAI adapted for these operations; (3) Implementing key mechanisms for fault tolerance and secure communication protocols improves the reliability and security of serverless ML training; and (4) The proposed SPIRT architecture, a fully serverless training workflow, offers superior training speed, performance, and fault tolerance compared to existing serverless ML training frameworks. To explore these hypotheses, a comprehensive review of over 150 studies was conducted to understand the integration of serverless computing within ML pipelines, starting from data preprocessing and model training to deployment and inference. The findings reveal an increasing adoption of serverless functions for various ML tasks, particularly in the training phase. Additionally, serverless architectures offer the ability to scale resources which making it well-suited for parallel gradient computations, significantly accelerating the ML training process. However, the stateless nature of serverless computing necessitates advanced techniques for efficient resource management, state synchronization, and fault tolerance. Addressing communication overhead, this research proposes in-database operations to minimize data transfer latencies. Due to the stateless nature of serverless functions, relying on a database is a necessity. By performing gradient averaging and model updates within the database, specifically through our modifications to RedisAI to use stored gradients, we significantly improve training efficiency. Furthermore, several key mechanisms were implemented to ensure fault tolerance and secure communication protocols in serverless ML training. Firstly, secure communication between workers was ensured, particularly when adding new workers to the training network, using encryption protocols to protect data integrity and confidentiality. A heartbeat mechanism was employed to monitor the status of each worker, allowing for prompt detection and response to any failures. To address fault tolerance, a mechanism was developed to handle worker failures; if a worker goes down, its assigned dataset is redistributed among the remaining workers, ensuring continuous training over all dataset. Additionally, to protect against Byzantine attacks, a method to exclude gradient outliers was incorporated. These implementations collectively enhance the reliability and security of the serverless ML training process. The SPIRT architecture, inspired by peer-to-peer mechanisms, was designed to optimize serverless ML training by orchestrating training tasks across multiple serverless functions and peers. We proposed two dimensions of scalability: increasing the number of serverless functions to compute gradients within a peer and adding more peers. This architecture avoids single points of failure and optimizes resource utilization, ensuring scalability and resilience. Comparative evaluations with state-of-the-art frameworks demonstrate that SPIRT achieves superior training time efficiency, cost-effectiveness, and fault tolerance. In conclusion, this research advances the field of serverless computing for machine learning by addressing critical challenges and proposing innovative solutions. The findings highlight the potential of serverless architectures to optimize ML training processes, providing practical frameworks for real-world applications and setting the stage for future advancements in serverless ML training.

L’informatique sans serveur a révolutionné les paradigmes de l’informatique en nuage en permettant aux développeurs de se concentrer sur la fonctionnalité des applications sans avoir à gérer l’infrastructure sous-jacente. Elle y parvient grâce à l’allocation automatique des ressources et à un modèle de tarification à l’utilisation, qui optimise les coûts et améliore la scalabilité. Cependant, l’application des architectures sans serveur à l’apprentissage automatique (ML) pose des défis importants en raison de la nature sans état et éphémère des fonctions sans serveur, ce qui complique les tâches nécessitant un état persistant et une communication intensive. Différentes architectures de formation ML, telles que les systèmes centralisés et distribués, présentent des défis uniques dans un environnement sans serveur. La formation centralisée, qui repose sur une machine puissante ou un cluster unique, introduit un point de défaillance unique, la rendant vulnérable aux perturbations et réduisant la fiabilité. Les systèmes de formation distribués, y compris les réseaux peer-to-peer, nécessitent une coordination et un transfert de données importants entre les noeuds, ce qui est difficile à gérer avec des fonctions sans serveur en raison de la nécessité d’une synchronisation continue de l’état et de la surcharge de communication. Malgré ces défis, l’allocation dynamique des ressources, la scalabilité et les avantages en termes de coûts de l’informatique sans serveur offrent des opportunités significatives pour optimiser la formation ML. Ces avantages sont particulièrement précieux dans les domaines d’application tels que le traitement des données en temps réel, l’IoT et l’informatique de périphérie, où la demande peut être très variable et imprévisible. Cette thèse examine l’hypothèse selon laquelle l’informatique sans serveur peut améliorer de manière significative l’efficacité de la formation ML grâce à des techniques avancées qui répondent à ces défis inhérents. La recherche est structurée autour de quatre sous-hypothèses : (1) Les fonctions sans serveur peuvent accélérer le calcul parallèle des gradients pendant la formation ML, bien qu’elles introduisent des défis liés à la gestion de l’état, à la synchronisation et à la surcharge de communication ; (2) Les opérations ML en base de données, telles que l’agrégation des gradients et la mise à jour du modèle, peuvent réduire efficacement la surcharge de communication dans les environnements de formation distribués sans serveur en minimisant les transferts de données, avec des outils comme RedisAI adaptés à ces opérations ; (3) La mise en oeuvre de mécanismes clés pour la tolérance aux pannes et les protocoles de communication sécurisés améliore la fiabilité et la sécurité de la formation ML sans serveur ; et (4) L’architecture SPIRT proposée, un flux de travail de formation entièrement sans serveur, offre une vitesse de formation, des performances et une tolérance aux pannes supérieures par rapport aux cadres de formation ML sans serveur existants. Pour explorer ces hypothèses, une revue complète de plus de 150 études a été réalisée pour comprendre l’intégration de l’informatique sans serveur dans les pipelines ML, allant du prétraitement des données et la formation du modèle à son déploiement et son inférence. Les résultats révèlent une adoption croissante des fonctions sans serveur pour diverses tâches ML, particulièrement dans la phase de formation. De plus, la capacité des architectures sans serveur à évoluer dynamiquement s’est révélée particulièrement adaptée aux calculs parallèles des gradients, accélérant significativement le processus de formation ML. Cependant, la nature sans état de l’informatique sans serveur nécessite des techniques avancées pour une gestion efficace des ressources, une synchronisation de l’état et une tolérance aux pannes. Pour aborder la surcharge de communication, cette recherche propose des opérations en base de données pour minimiser les latences de transfert de données. En raison de la nature sans état des fonctions sans serveur, il est nécessaire de s’appuyer sur une base de données. En effectuant la moyenne des gradients et les mises à jour du modèle dans la base de données, spécifiquement grâce à nos modifications de RedisAI pour utiliser les gradients stockés, nous améliorons significativement l’efficacité de la formation. En outre, plusieurs mécanismes clés ont été mis en oeuvre pour assurer la tolérance aux pannes et les protocoles de communication sécurisés dans la formation ML sans serveur. Tout d’abord, la communication sécurisée entre les travailleurs a été assurée, en particulier lors de l’ajout de nouveaux travailleurs au réseau de formation, en utilisant des protocoles de cryptage pour protéger l’intégrité et la confidentialité des données. Un mécanisme de battement de cœur a été employé pour surveiller le statut de chaque travailleur, permettant une détection et une réponse rapides à toute défaillance. Pour répondre à la tolérance aux pannes, un mécanisme a été développé pour gérer les défaillances des travailleurs ; si un travailleur tombe en panne, son jeu de données assigné est redistribué parmi les travailleurs restants, garantissant une formation continue sur l’ensemble du jeu de données. De plus, pour se protéger contre les attaques byzantines, une méthode pour exclure les outliers des gradients a été incorporée. Ces mises en oeuvre améliorent collectivement la fiabilité et la sécurité du processus de formation ML sans serveur. L’architecture SPIRT, inspirée des mécanismes peer-to-peer, a été conçue pour optimiser la formation ML sans serveur en orchestrant les tâches de formation entre plusieurs fonctions sans serveur et pairs. Nous avons proposé deux dimensions de scalabilité : augmenter le nombre de fonctions sans serveur pour calculer les gradients au sein d’un pair et ajouter plus de pairs. Cette architecture évite les points de défaillance uniques et optimise l’utilisation des ressources, garantissant scalabilité et résilience. Des évaluations comparatives avec des cadres de pointe démontrent que SPIRT atteint une efficacité de temps de formation, un rapport coût-efficacité et une tolérance aux pannes supérieurs. En conclusion, cette recherche fait progresser le domaine de l’informatique sans serveur pour l’apprentissage automatique en abordant des défis critiques et en proposant des solutions innovantes. Les résultats mettent en évidence le potentiel des architectures sans serveur pour optimiser les processus de formation ML, fournissant des cadres pratiques pour des applications réelles et préparant le terrain pour de futures avancées dans la formation ML sans serveur.

Type de document:Thèse ou mémoire de l'UQAC (Thèse de doctorat)
Date:2024
Lieu de publication:Chicoutimi
Programme d'étude:Doctorat en sciences et technologies de l'information
Nombre de pages:228
ISBN:Non spécifié
Sujets:Sciences naturelles et génie > Génie > Génie informatique et génie logiciel
Département, module, service et unité de recherche:Départements et modules > Département d'informatique et de mathématique > Programmes d'études de cycles supérieurs en informatique (doctorat)
Directeur(s), Co-directeur(s) et responsable(s):Jaafar, Fehmi
Petrillo, Fabio
Mots-clés:cost-effective solution, distributed architecture, in-database ML operations, peer-to-peer training, reduce communication overhead, serverless computing, training machine learning, architecture distribuée, informatique sans serveur, formation en apprentissage automatique, solution rentable, formation pair à pair
Déposé le:17 déc. 2024 09:32
Dernière modification:17 déc. 2024 19:12
Afficher les statistiques de telechargements

Éditer le document (administrateurs uniquement)

Creative Commons LicenseSauf indication contraire, les documents archivés dans Constellation sont rendus disponibles selon les termes de la licence Creative Commons "Paternité, pas d'utilisation commerciale, pas de modification" 2.5 Canada.

Bibliothèque Paul-Émile-Boulet, UQAC
555, boulevard de l'Université
Chicoutimi (Québec)  CANADA G7H 2B1
418 545-5011, poste 5630