Pytorch backward_hook에서 얻을 수 있는 gradient의 의미 Pytorch에는 gradient를 얻을 수 있는 api를 제공한다. nn.Module 타입인 변수에 register_backward_hook(hook_function)을 해주면 된다. 이 때 hook_function은 module, input_gradient, output_gradient를 인자로 받는다. 그런데 이렇게 설명만 보면 input_gradient, output_gradient라는 말이 약간 햇갈린다. input, output이 forward pass를 기준으로 되어 있기 때문이고, 수식으로도 설명이 안 되어 있다. 그래서 도대체 두 개의 gradient가 뭘 의미하는 지 모르겠어서 예제를 통해 살펴보려고 한다. 아래와 같은 코드를 실행하면 module, input_gradient, outp..
Screen과 matplotlib의 호환성 Linux 기반 서버에 접속해서 러닝을 돌릴 때 세션이 끊기는 현상이 발생해서 screen이라는 util을 사용하고 있다. screen은 ssh 접속이 끊겨도 session을 그대로 유지해준다! 그런데 screen을 유지한 상태에서 matplotlib을 사용하니 아래와 같은 현상이 발견됐다. UserWarning: Matplotlib is currently using agg, which is a non-GUI backend, so cannot show the figure. 처음에는 원인을 몰랐는데 screen이 활성화되지 않은 세션에서 matplotlib을 이용하니 잘 됐다. screen이 서버의 x-window를 변경시키는 모양이다...
Python list와 일반 variable의 scope, gradient hook 학습 도중 계산된 gradient의 값을 hook을 이용해 따는 코드를 넣었다. 방법은 크게 어렵지 않다. def hook_function(tensor_gradient): # 내가 하고 싶은 일 return tensor_gradient TORCH_TENSOR.register_hook(hook_function) torch.Tensor는 backward gradient만 얻을 수 있다. 만약 Tensor 대신 Module이라면 다른 forward, backward hook을 모두 사용할 수 있다. 내가 얻고 싶은 것은 gradient의 누적 값이어서 일단 첫 번째 방법을 시도했다. gradients = [] def hook_function(tensor_gradient): gradients.append(ten..
Prompt를 input에 추가했을 때 input, output processing 이때까지 알게 된 input에 prompt를 추가하는 방법은 크게 두가지가 있다. 하나는 맨 처음 input에만 prompt를 추가하는 방식. 두번째는 prompt를 모든 layer마다 추가하는 방식이다. 1. 맨 처음 input에만 prompt 추가 이 방법은 The Power of Scale for Parameter-Efficient Prompt Tuning 논문에 사용되었으며, 아래 2번 논문에서 "tembedding-only ablation" 라고 칭하는 방식으로 사용되었다. 논문 링크: https://arxiv.org/pdf/2104.08691v2.pdf 참조 소스: https://github.com/kipgparker/soft-prompt-tuning Huggingface transformer..
Transformer와 Noam scheduling Knowledge Tracing task를 위해 transformer encoder-decoder 기반 SAINT 모델을 학습시키던 중 model dimension이 256, 512일 때 학습이 잘 되지 않는 현상이 발생했다. Dimension이 128일 때는 잘 됐는데... 논문에서 Training Details 쪽을 보니 "We use the so-called Noam scheme to schedule the learining rate as in [22] with warmup_steps set to 4000." 이란 언급이 있었다. [22]는 "Attention is all you need" 논문이고, 해당 내용은 위와 같다. 적용해보니 신기하게도 학습이 잘 된다! 수식을 살펴보면 warmup_ste..
Variational Inference - Intro Variational Inference에 대해 공부한 내용들을 정리해보도록 하겠습니다. Variational Inference란 용어의 유래 보통 Variational Inference가 잘 작동하는 사례를 보면서 어떻게 활용되는지 그리고 원리가 무엇인지를 공부하게 되지만, 먼저 Variational Inference의 뜻에 대해 궁금해져서 찾아봤습니다. 그리 쉽지는 않더라고요. 구글에 Variational Inference를 검색하면 Variational Bayesian methods가 나오죠. https://en.wikipedia.org/wiki/Variational_Bayesian_methods Variational Bayesian methods - Wikipedia From Wikipedia, t..