notesum.ai

Published at December 10

cs.SD

cs.MM

eess.AS

Released Date: December 10, 2024

Authors: Rui Zhoua, Akinori Itoa, Takashi Nosea

	BLEU Score $\uparrow$		MOS Score $\uparrow$		Similarity $\uparrow$		Inference time(s/utt) $\downarrow$
	ES-EN	FR-EN	ES-EN	FR-EN	ES-EN	FR-EN	FR-EN
Cascade System
S2UT[21]	18.01	24.02	$3.31\pm 0.11$	$3.29\pm 0.12$	/	/	0.796
S2UT + FreeVC[17]	17.68	23.53	$4.20\pm 0.09$	$4.19\pm 0.10$	0.581	0.592	1.574
ASR + MT + SpeakerTTS[3]	21.65	20.18	$3.51\pm 0.09$	$3.54\pm 0.08$	0.652	0.664	2.956
End-to-End System
SC-S2UT[32]	16.10	21.68	$3.26\pm 0.13$	$3.20\pm 0.11$	0.609	0.611	0.813
Style-S2UT[5]	16.30	22.00	$\textbf{3.86}\pm\textbf{0.06}$ *		0.73		**
Ours
Embedding SC-S2UT
ES	16.93	22.41	$2.78\pm 0.08$	$2.84\pm 0.09$	0.667	0.671	0.864
ES + Enhence	16.84	21.73	$3.20\pm 0.08$	$3.21\pm 0.09$	0.655	0.663	0.911
FR	16.86	22.37	$2.70\pm 0.09$	$2.74\pm 0.08$	0.670	0.682	0.864
FR + Enhence	16.79	21.31	$2.97\pm 0.08$	$2.98\pm 0.09$	0.661	0.677	0.911
Pretrain SC-S2UT
ES	17.24	22.43	$3.35\pm 0.06$	$3.30\pm 0.07$	0.629	0.613	0.813
ES + Enhence	17.12	22.15	$\textbf{3.52}\pm\textbf{0.08}$	$\textbf{3.47}\pm\textbf{0.07}$	0.615	0.595	0.859
FR	17.16	22.82	$2.87\pm 0.12$	$3.02\pm 0.11$	0.574	0.621	0.813
FR + Enhence	16.75	22.44	$3.09\pm 0.09$	$3.24\pm 0.08$	0.575	0.619	0.859
Ground Truth	88.64	80.29	$4.45\pm 0.11$	$4.44\pm 0.11$	0.677	0.687	6.432