Audio-visual speaker diarization in the framework of multi-user human-robot interaction

Timothée Dhaussy (Université Avignon); Bassam Jabaian (LIA - Avignon university); Fabrice Lefevre (Univ. Avignon); Radu Horaud (Inria)

DOI

SPS

Members: Free
IEEE Members: $11.00
Non-members: $15.00

07 Jun 2023

Speaker diarization task answers the question "who is speaking at a given time?". It represents valuable information for scene analysis in a domain such as robotics. In this paper, we introduce a temporal audio visual fusion model for multi-users speaker diarization, with low computing requirement, a good robustness and an absence of training. In this study, the diarization is represented as a latent-variable temporal graphical model that assigns audio sources to individuals. The experimental setup is carefully tested and benchmarked through two different datasets. Our experimental study shows that the proposed solution yields promising results.

Tags:

Learning from multimodal data

Audio-visual speaker diarization in the framework of multi-user human-robot interaction

Timothée Dhaussy (Université Avignon); Bassam Jabaian (LIA - Avignon university); Fabrice Lefevre (Univ. Avignon); Radu Horaud (Inria)

Value-Added Bundle(s) Including this Product

IEEE ICASSP 2023, 4-10 June 2023, Greece. Virtual and In-Person Conference - Presentation Videos Product Bundle

More Like This

Data leakage in cross-modal retrieval training: A case study

BALANCED DEEP CCA FOR BIRD VOCALIZATION DETECTION

Enhanced Low-resolution LiDAR-Camera Calibration Via Depth Interpolation and Supervised Contrastive Learning

Join the IEEE Signal Processing Society