LLaMa2에 LoRA를 적용해보고 있는데, 이상하게 loss가 NaN이 되면서 학습이 되지 않았다.
이래저라 검색을 해보다가 우연히 어떤 블로그 글에서 tokenizer의 padding_side를 "right"로 바꾸는 걸 보고 적용해봤다.
불러온 LLaMa2 모델의 tokenizer의 기본 padding_side가 "left"로 되어 있었고, "right"로 바꿔준 뒤 학습했더니 loss가 잘 떨어졌다.
'개발' 카테고리의 다른 글
[PyTorch] IterableDataset의 split (0) | 2023.12.18 |
---|---|
RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn (0) | 2023.12.15 |
NotImplementedError: Cannot copy out of meta tensor; no data! (0) | 2023.12.15 |
Karabiner로 윈도우 용 키보드의 한영키를 맥에 적용시키기 (0) | 2023.10.12 |
Pytorch backward_hook에서 얻을 수 있는 gradient의 의미 (0) | 2022.12.05 |