notesum.ai

Published at December 4

Equivariant Representation Learning for Augmentation-based Self-Supervised Learning via Image Reconstruction

cs.CV

Released Date: December 4, 2024

Authors: Qin Wang¹, Kai Krajsek¹, Hanno Scharr¹

Aff.: ¹Forschungszentrum Jülich, Germany

Arxiv: http://arxiv.org/pdf/2412.03314v1

Refer to caption

ImageNet	Rotation	Color	Blur radius	Translation	Crop prediction	Flip
SIE(rot)	0.990	0.867	0.042	0.540	0.266	0.532
SIE(color)	0.078	0.890	0.097	0.355	0.178	0.333
SIE(blur)	0.153	0.883	0.941	0.189	0.412	0.415
SIE(trans)	0.213	0.885	0.023	0.978	0.368	0.511
SIE(crop)	0.273	0.819	0.018	0.450	0.922	0.485
SIE(flip)	0.155	0.798	0.056	0.312	0.266	0.993
VICReg[4]	0.318 $\pm$ 0.005	0.804 $\pm$ 0.016	0.101 $\pm$ 0.023	0.333 $\pm$ 0.008	0.423 $\pm$ 0.140	0.872 $\pm$ 0.070
SIE(all)	0.331 $\pm$ 0.007	0.899 $\pm$ 0.003	0.211 $\pm$ 0.005	0.925 $\pm$ 0.002	0.835 $\pm$ 0.008	0.945 $\pm$ 0.004
SIE(all, single each time)	0.435 $\pm$ 0.011	0.907 $\pm$ 0.009	0.377 $\pm$ 0.004	0.922 $\pm$ 0.010	0.829 $\pm$ 0.005	0.939 $\pm$ 0.007
Ours	0.862 $\pm$ 0.004	0.921 $\pm$ 0.006	0.823 $\pm$ 0.003	0.853 $\pm$ 0.005	0.912 $\pm$ 0.002	0.952 $\pm$ 0.008