The XMU system for audio-visual diarization and recognition in MISP challenge 2022

Tao Li (Xiamen University); Haodong Zhou (Xiamen University); Jie Wang (Xiamen University); Qingyang Hong (Xiamen University); Lin Li (Xiamen University)

SPS

Members: Free
IEEE Members: $11.00
Non-members: $15.00

10 Jun 2023

In this paper, we present our efforts in track 2 of the Multi-modal Information based Speech Processing (MISP) 2022 Challenge. We built a cascaded system and explored different acoustic front-ends and end-to-end speech recognition back-ends based on multimodal. To promote effective fusion between the different modalities, we introduced a multi-level feature fusion network. By utilizing several additional strategies, our system achieved 31.88% in the concatenated minimum permutation character error rate (cpCER) on the evaluation set, earning us the 3th place ranking in the competition.

Tags:

Signal Processing for Communications and Networking