Introduction
2024년 이전에 나온 arxiv preprint 중, 트렌드와 무관하게 한 번쯤은 다시 들춰볼 만한 논문들을 모았습니다.
Occam's Razor for Self Supervised Learning: What is Sufficient to Learn Good Representations?, 2406
TL; DR: 좋은 representation을 학습하기 위해 SSL이 정말로 필요로 하는 component가 무엇인지를 ablation 관점에서 정리한 연구입니다.
기존 문제: SSL은 contrastive, self-distillation, masked modeling 등 여러 갈래로 분화되어 왔고, 각 갈래마다 augmentation policy, projector, predictor, EMA target, asymmetric architecture 등 수많은 component가 누적되어 왔습니다. 이 중 어떤 것이 본질적으로 필요한 component이고, 어떤 것이 실험적 관성으로 따라붙은 것인지 구분이 모호합니다.
논문의 접근: SSL pipeline을 minimal한 형태에서 시작해 각 component를 추가/제거하며 representation quality를 측정합니다. 어떤 ingredient가 representation quality에 결정적인지, 어떤 ingredient가 사실상 redundant한지를 controlled 실험으로 정리합니다.
개인 의견 :