notesum.ai

Published at December 10

Learning Self-Supervised Audio-Visual Representations for Sound Recommendations

cs.CV

cs.MM

cs.SD

eess.AS

Released Date: December 10, 2024

Authors: Sudha Krishnamurthy¹

Aff.: ¹Sony Interactive Entertainment, San Mateo, CA

Arxiv: http://arxiv.org/pdf/2412.07406v1

Refer to caption

Encoder	Loss	Acc(%)
baseline	BCE	69.5
attention	BCE+margin	87.4
	contrastive
fine-tuned	BCE+margin	87.8
attention	contrastive