notesum.ai

Published at November 11

DCF-DS: Deep Cascade Fusion of Diarization and Separation for Speech Recognition under Realistic Single-Channel Conditions

eess.AS

cs.SD

Released Date: November 11, 2024

Authors: Shu-Tong Niu, Jun Du, Ruo-Yu Wang, Gao-Bin Yang, Tian Gao, Jia Pan, Yu Hu

Arxiv: http://arxiv.org/abs/2411.06667v1

Front-end Systems	Epoch	$\mathbf{S}_{\text{G}}$	TcpWER ( $\%$ )
Oracle Segment	-	Oracle Segment	39.73
NOTSOFAR-1 Baseline [6]	-	-	41.4
DCF-DS	20	SC	38.28
	30		38.05
	40		38.02
	20	NSD-MS2S	37.91
	30		37.66
	40		37.80
DCF-DS (with RTM)	20	NSD-MS2S	37.31
	30		37.26
	40		37.14