notesum.ai

Published at November 27

MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models

cs.CL

cs.SD

eess.AS

Released Date: November 27, 2024

Authors: Thai-Binh Nguyen¹, Alexander Waibel²

Aff.: ¹Karlsruhe Institute of Technology, Karlsruhe, Germany; ²Carnegie Mellon University, Pennsylvania, USA

Arxiv: http://arxiv.org/abs/2411.18152v1

Refer to caption

Language	Diarization+ASR	MSA-ASR (Our)	ASR
English	15.52	12.90	12.24
German	26.24	16.54	14.28
French	32.20	16.53	13.95
Spanish	20.75	13.73	11.32
Polish	34.94	16.15	10.31
Italian	33.52	23.71	20.06
Romanian	38.48	23.65	18.05
Hungarian	29.77	28.12	19.82
Czech	35.47	28.60	16.27
Dutch	29.81	18.12	14.68
Finnish	37.30	20.51	15.85
Croatian	37.52	34.52	28.05
Slovak	34.44	27.24	16.07
Slovenian	41.32	30.90	27.33
Estonian	44.65	39.59	37.15
Lithuanian	69.17	40.57	34.04