본문 바로가기

NLP

Emergent abilities

스캐터랩의 김종윤 대표님이 OpenAI의 샘 알트만이 한국에 왔을 때 나눈 round table talk에 참여하여 들은 내용을 정리해 올려주신 것을 보았다.

https://tech.scatterlab.co.kr/round-table-talks-with-openai/

여기서 emergent abilities에 대한 언급이 나와 찾아봤다.


Emergent abilities에 대해 정리한 논문

저자들이 ㅎㄷㄷ 하다.

정확하지는 않지만 처음으로 emergent abilities에 대해 정의하고 그에 대해 다룬 논문인 것 같다.

 

이 논문에서 emergent abilities를 이렇게 정의한다.

"An ability is emergent if it is not present in smaller models but is present in larger models."

보통 모델의 크기를 키우면 성능이 점차 좋아질 것이라 예상할 수 있다. 하지만 언어 모델의 크기를 키웠을 때 모델의 성능이 예상 밖으로 갑자기 좋아지는 현상이 나타난다. 이런 모델의 능력은 extrapolating으로 예측불가능하다. 

 

주로 Prompt를 활용해 language model의 성능이 극대화 되면서 이런 현상이 나타나기 시작한다. 하지만 이런 emergent abilities에 대해 좀 더 많은 연구가 필요하다. Data quality, 학습 방법, prompting 방법 등에 따라 모델의 성능이 점점 좋아지고, emergent abilities가 나타나는 모델 사이즈가 더 작아질 것이다. 또한 무작정 model size를 키우기도 힘들다. 그리고 정말 모델의 성능이 emergent 한 것인지에 대해서도 연구가 필요하다.


AssemblyAI blog

"As LLMs are scaled they hit a series of critical scales at which new abilities are suddenly "unlocked"". LLM이 실제로 이런 능력을 갖도록 학습된 게 아니지만 예측하지 못했던 이런 행동들을 하게 된다. 단지 language modeling만을 했음에도 수식 연산, 질의 응답, 요약 등을 할 수 있게 된다. 어떻게 이런 일이 가능해질까?

 

Language modeling만을 학습함에도 불구하고 나타는 이런 부가적인 능력들은 모델의 크기를 키울 때 어느 순간 생겨난다. 이와 비슷하게 어린 아이의 뇌가 자라면서 어떤 능력이 갑자기 좋아지는 현상이 나타난다. 이런 현상은 이미 다른 여러 곳에서도 관찰됐다. 물리학, 진화생물학, 경제학 등의 분야에서 약간의 parameter 증가가 매우 큰 행동 변화를 일으키는 현상이 일어난다. 예를 들어 물이 0도에 가까워질 때와 0도에 도달했을 때를 비교해보면, 물의 구조가 0도를 기준으로 매우 급격하게 바뀐다.

 

이모티콘을 통해 영화 제목을 맞추는 emoji_movie task에 대한 BIG-G 모델의 성능을 보면 파라미터의 수가 100억(10B)가 되면서 성능이 급격하게 좋아지는 것을 볼 수 있다. 그리고 서로 관련 없어 보이는 여러 task들에서 이런 현상이 일어나는 모델의 크기가 비슷하다.

이 현상이 중요한 점은, 우리가 이 현상이 일어날 지, 일어난다면 언제 일어날 지 모른다는 점이다. 그래서 어떤 문제를 해결하기 위해 다른 구조나 아이디어들을 시도해보기 전에 LLM을 키우는 시도를 해 보는 것이 좋다.

 

이런 현상이 일어나는 이유에 대해 두가지 가설이 있다.

첫번째로, 실제로 내부적인 추론 능력은 점진적으로 향상되고 있지만 우리는 최종적인 성공 여부만을 측정하므로 이런 능력이 갑자기 나타난 것처럼 보인다는 것이다. 예를 들어 multi-step reasoning이 필요한 문제의 경우, 한 번의 reasoning step을 성공할 확률 p를 점진적으로 늘려가도, 최종적으로 문제를 맞출 확률은 p가 1 근처에 갔을 때 급격하게 증가하게 된다. 그러므로 모델의 크기를 충분히 키워야 문제를 풀 수 있게 된다고 예측할 수 있다.

두번째로 우리가 무엇을 어떻게 측정하는가에 따라 이런 현상을 일으킨다는 주장이다. emoji_movie task에서 metric은 exact string match였고, 이를 multiple choice 방식으로 바꾸면 좀 더 완만한 증가세를 보인다. 이런 All-or-nothing 방식의 metric을 다르게 바꿔 이런 현상을 완화시킬 수 있다. 또한 여러 task에 대한 모델을 측정해보면 모델의 성능이 점진적으로 증가하는 것을 볼 수 있다.

 

모델의 크기를 키우는 것이 문제를 해결하는 데 큰 도움이 되는 것으로 보이지만, 단순히 모델의 크기만 키우면 되는 것이 아니라 그에 따라 data의 크기도 모델의 크기와 같이 굉장히 많이 늘려야 한다. 이런 이유로 쉽게 모델 크기를 늘리기가 힘들다.

 


Stanford의 연구자들이 생각하는 emergent abilities

링크: https://hai.stanford.edu/news/ais-ostensible-emergent-abilities-are-mirage

 

LLM의 모델 복잡도가 어느 정도 이상 넘어가면 LLM이 예측하지 못한 행동을 하게 되는 가능성이 생긴다. 이를 통해 인류의 큰 문제들을 해결할 수 있을 것이라고 기대하며 tech leader들이 장점으로 내세웠지만, 예측하지 못한다는 것은 그만큼 무서운 것이다. 모델의 크기를 키웠을 때, 모델이 예측불가능하면서도 해로운 행동들을 하지 않을까?

 

이런 걱정이 업계에 많이 퍼져 있다. 하지만 새 논문에 의하면 그런 걱정은 하지 않아도 될 것 같다. 모델을 키우면 성능이 좋아지긴 하지만, 전체가 부분의 합보다 좋아지지는 않는다고 한다. 모델의 emergent abilities는 이때까지 사용한 평가지표에 기반한다. Emergent abilities에 대한 신기루는 metric을 바꾸면 사라진다.

 

저자인 Schaeffer는 AI의 emergent abilities에 대해 들을 때마다 연구자들이 특정 metric을 사용한다는 것을 발견했다. 저자들이 29개의 metric으로 작은 모델부터 큰 모델들을 평가했을 때, 이 중 25개의 metric에서 emergent abilities가 보이지 않았다.

Large vision 모델에서는 emergent properties가 보이지 않는데, 이는 vision 쪽에서는 NLP에서처럼 harsh metric을 쓰지 않기 때문이다. Vision 쪽에 똑같이 harsh metric을 쓰면 emergence mirage가 생겼다.

 

구글도 LLM에서 사용한 harsh metric에 대해 의문을 제기했고, OpenAI의 LLM 연구자도 이 논문의 주장과 비슷한 결과를 보았다고 했다.

 


OpenAI 내에서도 샘 알트만과 의견이 다른 사람이 있는 것 같은데, 아직까지는 emergent abilities에 대해 걱정하지 않아도 된다는 것 같다. 그리고 위의 assemblyAI에서 얘기한 것과 일맥상통하는 면도 있다.