Constellation, le dépôt institutionnel de l'Université du Québec à Chicoutimi

Discrimination parole/musique et étude de nouveaux paramètres et modèles pour un système d'identification du locuteur dans le contexte de conférences téléphoniques

Ezzaidi Hassan. (2002). Discrimination parole/musique et étude de nouveaux paramètres et modèles pour un système d'identification du locuteur dans le contexte de conférences téléphoniques. Thèse de doctorat, Université du Québec à Chicoutimi.

[thumbnail of 17603685.pdf]
Prévisualisation
PDF
4MB

Résumé

La mise en oeuvre de systèmes de compréhension automatique de parole pouvant fonctionner dans des conditions réelles implique de reproduire certaines aptitudes de l'être humain. Outre les aptitudes à comprendre la parole même lorsqu'elle est corrompue par du bruit, nous sommes capables de tenir une conversation impliquant plusieurs interlocuteurs. Ce dernier point est lié au fait que nous identifions implicitement les interlocuteurs. Cette caractérisation du locuteur nous permet par exemple de réaliser des conversations téléphoniques en mode conférence. En plus de la reconnaissance du vocabulaire ou de l'identification du locuteur, on est également capable de distinguer les séquences de la musique (en alternance, en arrière plan, etc.) qui peuvent apparaître lorsqu'un des correspondants se place en mode attente.

En partant de ce contexte, on s'est intéressé à développer un système capable d'une part de discriminer entre les séquences de Parole/Musique et d'autre part d'identifier le locuteur dans des conditions téléphoniques fonctionnant en mode conférence avec une variabilité des combinés. Autrement dit, cette thèse s'intéresse à deux sujets du domaine du traitement de la parole. Le premier sujet porte sur la recherche de nouveaux paramètres pour améliorer les performances des algorithmes qui identifient les locuteurs en mode téléphonique. Le deuxième sujet est consacré à la proposition de nouvelles approches en discrimination de la parole, de la musique et de la musique chantée.

En discrimination du locuteur, on présentera une première étude visant à caractériser le locuteur par des paramètres AM-FM synchrones à la glotte, extraits à la sortie d'un banc de filtres cochléaires. L'objectif visé est de trouver de nouveaux paramètres plus robustes aux bruits et à la variabilité des combinés téléphoniques. Comme résultats, on a obtenu des scores presque similaires entre le système proposé et le système de référence. Les meilleures performances ont été enregistrées lorsque le système utilise une architecture parallèle composée de deux reconnaisseurs qui se basent respectivement sur les paramètres MFCC et AM-FM. Dans le même cadre, on s'est intéressé à proposer une nouvelle technique de modélisation qui tient compte de la dépendance temporelle entre la source d'excitation et le conduit vocal. Avec les tests de courtes durées, on a obtenu de meilleures performances en comparaison à l'approche classique. Cependant, quand on augmente la durée de test, on obtient presque les mêmes performances pour tous les systèmes proposés.

En discrimination Parole/Musique, on a proposé deux systèmes, le premier utilise trois modèles paramétriques entraînés respectivement pour la parole, la musique et la musique chantée sans effectuer aucune normalisation sur les vecteurs paramètres. Sur une durée test de 100 ms, on a obtenu un taux de reconnaissance en moyenne de 93,77%. Le deuxième système ne requiert aucun entraînement et se base simplement sur un seuil pour effectuer la classification.

Type de document:Thèse ou mémoire de l'UQAC (Thèse de doctorat)
Date:2002
Lieu de publication:Chicoutimi
Programme d'étude:Doctorat en ingénierie
Nombre de pages:125
ISBN:1412310350
Identifiant unique:10.1522/17603685
Sujets:Sciences naturelles et génie > Génie > Génie électrique et génie électronique
Département, module, service et unité de recherche:Départements et modules > Département des sciences appliquées > Programmes d'études de cycles supérieurs en ingénierie
Directeur(s), Co-directeur(s) et responsable(s):Rouat, Jean
Mots-clés:Reconnaissance automatique de la parole, Téléconférences, Informateurs (Linguistique), Compréhension, Automatic speech recognition, Computer conferencing, Linguistic informants, Comprehension, THESE, SYSTEME, COMPREHENSION, PAROLE, TRAITEMENT, MUSIQUE, DISCRIMINATION, RECONNAISSANCE, TELEPHONE, CONFERENCE, DISCRIMINTATION, LOCUTEUR, CONFERENCE, TELEPHONIQUE, TELEPHONE, CARACTERISATION, PARAMETRE, MODELE
Déposé le:01 janv. 2002 12:34
Dernière modification:03 juin 2011 13:27
Afficher les statistiques de telechargements

Éditer le document (administrateurs uniquement)

Creative Commons LicenseSauf indication contraire, les documents archivés dans Constellation sont rendus disponibles selon les termes de la licence Creative Commons "Paternité, pas d'utilisation commerciale, pas de modification" 2.5 Canada.

Bibliothèque Paul-Émile-Boulet, UQAC
555, boulevard de l'Université
Chicoutimi (Québec)  CANADA G7H 2B1
418 545-5011, poste 5630