Emergent (창발)

Background : Emergency현상은 딥러닝에게 어려운 작업으로 추정되던 것들이 특정 파라미터 수를 넘긴 모델에서는 갑작스럽게 잘 수행하는 현상을 일컫거나, 설명되지 않는(?) 성능의 비약적 향상을 지칭하기도 합니다. 특히 작은 모델에서 성능을 향상시키는 기법이라 생각되던 것들이 큰 모델에서는 적용되지 않는 현상(start small 챕터 참고) 이 근거로 작용하고 있습니다. 이 때문에 많은 기업에서 자체 LLM의 중요성을 강조하고, 학습한 지식을 interpolate/extrapolate 하여 compositional generalization을 발휘한다고 해석하는 등 다양한 키워드를 제시하는 발판이 되고 있습니다.
Contradiction : Schaeffer et al.(2023) 에서는 emergent 현상이 ‘모델의 성능을 잘못 검증했기 때문에’ 나오는 현상이라 설명합니다. 특히 텍스트의 입출력 길이는 metric의 결과에 매우 큰 영향을 미치므로, 기존 researcher들이 연구 결과를 강조하기 위해 metric을 cherry-pick하고, MMLU와 같은 다양한 task를 종합한 평가방법의 경우 이런 cherry-pick 형태를 눈치채기 어렵기 때문에, 이런 오해가 생겨난 것으로 설명합니다. 실제로 입출력 길이에 따라 metric을 수정하거나, discrete룰 continuous하게 바꾸는 것으로 emergent라고 부르는 현상들을 설명할 수 있게 바뀌는 것을 확인하였습니다.

Highlight figure

Untitled

의의 : 최신 논문들은 검증되기까지 많은 시간과 논의가 필요하지만, 이를 naive하게 수용하게 되면 자칫 향후 목표를 잘못 설정할 수 있습니다. 특히 딥러닝 모델들이 점점 추상적 추론을 잘 수행하도록 발전하고 있어, evaluation이나 validation 작업은 갈수록 어려워지고 있습니다. 따라서 단순히 metric number를 강조하는 주장은 신중하게 받아들일 필요가 있습니다.