본문 바로가기

개발

LLaMA2 LoRA 적용과 tokenizer의 padding_side

 

LLaMa2에 LoRA를 적용해보고 있는데, 이상하게 loss가 NaN이 되면서 학습이 되지 않았다.

 

이래저라 검색을 해보다가 우연히 어떤 블로그 글에서 tokenizer의 padding_side를 "right"로 바꾸는 걸 보고 적용해봤다.

 

불러온 LLaMa2 모델의 tokenizer의 기본 padding_side가 "left"로 되어 있었고, "right"로 바꿔준 뒤 학습했더니 loss가 잘 떨어졌다.