Ezzaidi Hassan. (2002). Discrimination parole/musique et étude de nouveaux paramètres et modèles pour un système d'identification du locuteur dans le contexte de conférences téléphoniques. Thèse de doctorat, Université du Québec à Chicoutimi.
Prévisualisation |
PDF
4MB |
Résumé
La mise en oeuvre de systèmes de compréhension automatique de parole pouvant fonctionner dans des conditions réelles implique de reproduire certaines aptitudes de l'être humain. Outre les aptitudes à comprendre la parole même lorsqu'elle est corrompue par du bruit, nous sommes capables de tenir une conversation impliquant plusieurs interlocuteurs. Ce dernier point est lié au fait que nous identifions implicitement les interlocuteurs. Cette caractérisation du locuteur nous permet par exemple de réaliser des conversations téléphoniques en mode conférence. En plus de la reconnaissance du vocabulaire ou de l'identification du locuteur, on est également capable de distinguer les séquences de la musique (en alternance, en arrière plan, etc.) qui peuvent apparaître lorsqu'un des correspondants se place en mode attente.
En partant de ce contexte, on s'est intéressé à développer un système capable d'une part de discriminer entre les séquences de Parole/Musique et d'autre part d'identifier le locuteur dans des conditions téléphoniques fonctionnant en mode conférence avec une variabilité des combinés. Autrement dit, cette thèse s'intéresse à deux sujets du domaine du traitement de la parole. Le premier sujet porte sur la recherche de nouveaux paramètres pour améliorer les performances des algorithmes qui identifient les locuteurs en mode téléphonique. Le deuxième sujet est consacré à la proposition de nouvelles approches en discrimination de la parole, de la musique et de la musique chantée.
En discrimination du locuteur, on présentera une première étude visant à caractériser le locuteur par des paramètres AM-FM synchrones à la glotte, extraits à la sortie d'un banc de filtres cochléaires. L'objectif visé est de trouver de nouveaux paramètres plus robustes aux bruits et à la variabilité des combinés téléphoniques. Comme résultats, on a obtenu des scores presque similaires entre le système proposé et le système de référence. Les meilleures performances ont été enregistrées lorsque le système utilise une architecture parallèle composée de deux reconnaisseurs qui se basent respectivement sur les paramètres MFCC et AM-FM. Dans le même cadre, on s'est intéressé à proposer une nouvelle technique de modélisation qui tient compte de la dépendance temporelle entre la source d'excitation et le conduit vocal. Avec les tests de courtes durées, on a obtenu de meilleures performances en comparaison à l'approche classique. Cependant, quand on augmente la durée de test, on obtient presque les mêmes performances pour tous les systèmes proposés.
En discrimination Parole/Musique, on a proposé deux systèmes, le premier utilise trois modèles paramétriques entraînés respectivement pour la parole, la musique et la musique chantée sans effectuer aucune normalisation sur les vecteurs paramètres. Sur une durée test de 100 ms, on a obtenu un taux de reconnaissance en moyenne de 93,77%. Le deuxième système ne requiert aucun entraînement et se base simplement sur un seuil pour effectuer la classification.
Type de document: | Thèse ou mémoire de l'UQAC (Thèse de doctorat) |
---|---|
Date: | 2002 |
Lieu de publication: | Chicoutimi |
Programme d'étude: | Doctorat en ingénierie |
Nombre de pages: | 125 |
ISBN: | 1412310350 |
Identifiant unique: | 10.1522/17603685 |
Sujets: | Sciences naturelles et génie > Génie > Génie électrique et génie électronique |
Département, module, service et unité de recherche: | Départements et modules > Département des sciences appliquées > Programmes d'études de cycles supérieurs en ingénierie |
Directeur(s), Co-directeur(s) et responsable(s): | Rouat, Jean |
Mots-clés: | Reconnaissance automatique de la parole, Téléconférences, Informateurs (Linguistique), Compréhension, Automatic speech recognition, Computer conferencing, Linguistic informants, Comprehension, THESE, SYSTEME, COMPREHENSION, PAROLE, TRAITEMENT, MUSIQUE, DISCRIMINATION, RECONNAISSANCE, TELEPHONE, CONFERENCE, DISCRIMINTATION, LOCUTEUR, CONFERENCE, TELEPHONIQUE, TELEPHONE, CARACTERISATION, PARAMETRE, MODELE |
Déposé le: | 01 janv. 2002 12:34 |
---|---|
Dernière modification: | 03 juin 2011 13:27 |
Éditer le document (administrateurs uniquement)