C2BN: Cross-modality and Cross-scale Balance Network for multi-modal 3D Object Detection

BoNan Ding (Chingqing University); Jin Xie (Chongqing University); Jing Nie (Chongqing University)

DOI

SPS

Members: Free
IEEE Members: $11.00
Non-members: $15.00

04 Jun 2023

Multi-modal 3D object detection that classifies and locates objects in 3D space by combining point-clouds captured by lidars and RGB images captured by cameras, serves as the basis for autonomous driving. Most of the existing methods aggregate features from point-clouds and images by plain element-wise additions or multiplications. Although these methods improve detection accuracy, such simple operations have difficulties in balancing both modalities. Further, the multi-level features from images also suffer from imbalance problems in receptive fields. To address the above problems, we propose two novel networks: cross-modality balance network (CMN) and cross-scale balance network (CSN). CMN utilizes cross-modality attention mechanisms to balance the importance and receptive field of two modalities. CSN employs cross-scale attention mechanisms to reduce the imbalance in multi-level features. Experiments are performed on the challenging benchmark: KITTI. The experimental results show consistent improvements in different 3D object detection frameworks, which verifies the effectiveness and generality of our proposed networks.

Tags:

Multi-modal signal processing and analysis (audio/visual/haptics/radar/lidar etc.)

C2BN: Cross-modality and Cross-scale Balance Network for multi-modal 3D Object Detection

BoNan Ding (Chingqing University); Jin Xie (Chongqing University); Jing Nie (Chongqing University)

Value-Added Bundle(s) Including this Product

IEEE ICASSP 2023, 4-10 June 2023, Greece. Virtual and In-Person Conference - Presentation Videos Product Bundle

More Like This

Improving Few-Shot Learning for Talking Face System with TTS Data Augmentation

Adaptive CSI Feedback with Hidden Semantic Information Transfer

The Multimodal Information Based Speech Processing (MISP) 2022 Challenge: Audio-Visual Diarization and Recognition

Join the IEEE Signal Processing Society