본문 바로가기
Al Basic/NLP

[NLP] RNN & LSTM

by whybe 2023. 6. 4.

RNN이란?

 

https://colah.github.io/posts/2015-08-Understanding-LSTMs/

RNN(Recurrent Neural Network, 순환신경망)은 연속성이 있는 데이터를 처리하기 위해서 고안된 신경망이다. RNN은 기존 신경망들과는 달리 은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 출력층 방향으로 보내는 동시에, 은닉층 노드의 다음 계산을 위한 입력으로 보낸다.

 

RNN의 기본 구조는 위와 같으며 각 용어의 의미는 다음과 같다.

  • $h_{t-1}$: old hidden state vector
  • $h_{t}$ : new hidden state vector
  • $x_{t}$ : input vector at some time step
  • $y_{t}$ : output vector at time step t
  • $W_{xh}$ : 입력층에서 은닉층으로 전달되는 가중치
  • $W_{hh}$ : $t$ 시점의 은닉층에서 $t+1$ 시점의 은닉층으로 전달되는 가중치
  • $W_{hy}$ : 은닉층에서 출력층으로 전달되는 가중치

https://ratsgo.github.io/natural%20language%20processing/2017/03/09/rnnlstm/

가중치 $W_{xh}$, $W_{hh}$, $W_{hy}$는 모든 시점에서 동일하다는 것에 주의해야 한다. 즉, 각 time step마다 동일한 가중치를 이용한다. 다만 은닉층이 2개 이상일 경우에는 각 은닉층에서의 가중치는 서로 다르다.

 

$x_{t}$의 크기(차원)을 $d$, $h_{t}$의 크기을 $D_{h}$라고 하면 RNN에서의 은닉층 연산은 아래 그림과 같다.

https://wikidocs.net/22886

RNN을 통해 풀고자 하는 문제가 무엇인지에 따라 출력층에서 사용되는 활성화 함수의 종류는 달라진다. 예를 들어, 이진 분류의 경우 출력층에서 시그모이드 함수를 사용하며, 다중 분류의 경우 소프트맥스 함수를 사용한다.

$$ y_{t} = sigmoid(W_{hy}h_{t}+b_{y}) $$

$$ y_{t} = softmax(W_{hy}h_{t}+b_{y}) $$

 

https://karpathy.github.io/2015/05/21/rnn-effectiveness/

 

RNN은 입력과 출력에 따라 유형이 다양하다.

  • 일대일(one to one) : 순환이 없기 때문에 RNN이라 말하기 어려우며, 일반적인 신경망이 이와 같은 형태다.
  • 일대다(one to many) : 입력이 하나이고 출력이 다수인 구조로, 이미지를 입력해서 이미지에 대한 설명을 문장으로 출력하는 이미지 캡션(image caption)이 대표적이다.
  • 다대일(many to one) : 입력이 다수이고 출력이 하나인 구조로, 문장을 입력해서 긍정/부정을 출력하는 감정 분석에 사용된다.
  • 다대다(many to many) : 입력과 출력 모두 다수인 구조로, 자동 번역이 대표적이다.
  • 동기화 다대다(many to many) : 입력과 출력 모두 다수인 구조로, 각 단어의 품사에 대해 태깅하는 pos(part-of-speech)나 프레임 임 단위의 비디오 분류 등이 대표적이다.

 

http://cs231n.stanford.edu/slides/2017/cs231n_2017_lecture10.pdf

RNN에서 오차는 기존 신경망에서의 feedforward와는 달리 각 time step마다 오차를 측정한다. 즉, 각 단계마다 실제 값과 예측값을 비교하여 오차를 계산한다.

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

RNN에서 역전파는 BPTT(Backpropagation Through Time)을 이용하여 모든 단계마다 처음부터 끝까지 전달된다. 각 time step에서 구한 오차를 이용하여 $W_{xh}$, $W_{hh}$, $W_{hy}$ 및 $b$를 업데이트한다. 이때, $$h_{t} = W_{hh}h_{t-1} + W_{xh}x_{t}+b_{h}$$의 계산이 매 time step마다 반복되는데, backpropagation 과정 동안 $W_{xh}$와 $W_{hh}$에 대한 gradient가 반복적으로 곱해짐에 따라 Gradient Vanishing/Exploding 문제가 발생하고 이것이 Long-Term-Dependency를 일으킨다.

LSTM이란?

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

앞서 언급한 Long-Term-Dependency를 해결하기 위해 등장한 모델이 LSTM(Long Short-Term Memory)이다. LSTM은 기존 RNN에서의 hidden state를 의미하는 $h_{t}$를 계산하는 방식을 더 복잡하게 만들어 cell state를 의미하는 $c_{t}$를 추가하였다.

 

http://dprogrammer.org/rnn-lstm-gru

LSTM의 기본 구조는 위와 같으며 각 용어의 의미는 다음과 같다.

  • $f_{t}$ : 망각 게이트, 과거 정보를 삭제하기 위한 게이트
  • $i_{t}$ : 입력 게이트, 현재 정보를 기억하기 위한 게이트
  • $o_{t}$ : 출력 게이트, 과거 정보와 현재 데이터를 사용하여 출력을 결정
  • $\tilde{C_{t}}$ : 게이트 게이트, 현재 정보를 얼마나 기억할지를 결정

각 게이트에 대한 수식은 다음과 같다.

  • $f_{t} = \sigma(W_{xh\_f}x_{t}+W_{hh\_f}h_{t-1}+b_{f}) = \sigma(W_{f}[h_{t-1},x_{t}]+b_{f})$
  • $i_{t} = \sigma(W_{xh\_i}x_{t}+W_{hh\_i}h_{t-1}+b_{i}) = \sigma(W_{i}[h_{t-1},x_{t}]+b_{i})$
  • $o_{t} = \sigma(W_{xh\_o}x_{t}+W_{hh\_o}h_{t-1}+b_{o}) = \sigma(W_{o}[h_{t-1},x_{t}]+b_{o})$
  • $\tilde{C_{t}} = tanh(W_{xh\_C}x_{t}+W_{hh\_C}h_{t-1}+b_{C}) = tanh(W_{C}[h_{t-1},x_{t}]+b_{C})$

결론적으로 특정 시점 t에서의 cell state를 의미하는 $C_{t}$와 hidden state를 의미하는 $h_{t}$에 대한 수식은 다음과 같다.

($\cdot$은 원소별 곱을 의미)

$$ C_{t} = f_{t}\cdot C_{t-1} + i_{t}\cdot\tilde{C_{t}} $$

$$ h_{t} = o_{t} \cdot tanh(C_{t}) $$

GRU란?

http://dprogrammer.org/rnn-lstm-gru

GRU(Gated Recurrent Unit, 게이트 순환 신경망)은 LSTM의 모델 구조를 보다 경량화하여 더 적은 메모리를 사용하며 계산 시간이 더 빠른 모델이다. GRU는 동작 원리는 LSTM과 유사하지만 LSTM에서 사용하는 망각 게이트와 입력 게이트를 하나로 합친 업데이트 게이트($z_{t}$)를 사용하며, 오직 $h_{t}$만을 사용한다. (GRU에서의 $h_{t}$는 LSTM에서의 $C_{t}$와 유사한 기능을 한다.)

 

GRU에서의 각 용어의 의미는 다음과 같다.

  • $r_{t}$ : 리셋 게이트, 과거 정보를 어느 정도 초기화시키는지 결정
  • $z_{t}$ : 업데이트 게이트, 과거와 현재 정보의 최신화 비율을 결정하는 역할
  • $\tilde{h_{t}}$ : candidate, 현시점의 정보를 의미

각 용어에 대한 수식은 다음과 같다.($\cdot$은 원소별 곱을 의미)

  • $r_{t} = \sigma(W_{xh\_r}x_{t}+W_{hh\_r}h_{t-1}+b_{r}) = \sigma(W_{r}[h_{t-1}, x_{t}]+b_{r})$
  • $z_{t} = \sigma(W_{xh\_z}x_{t}+W_{hh\_z}h_{t-1}+b_{z}) = \sigma(W_{z}[h_{t-1}, x_{t}]+b_{z})$
  • $\tilde{h_{t}} = tanh(W[r_{t} \cdot h_{t-1}, x_{t}] + b)$

결론적으로 GRU에서의 hidden state를 의미하는 $h_{t}$는 다음과 같다.($\cdot$은 원소별 곱을 의미)

$$ h_{t} = (1-z_{t}) \cdot h_{t-1} + z_{t} \cdot \tilde{h_{t}} $$

 

'Al Basic > NLP' 카테고리의 다른 글

[NLP] Dimensionality Reduction  (0) 2023.10.03
[NLP] Text Representation  (0) 2023.09.25
[NLP] Text Preprocessing  (0) 2023.09.20
[NLP] Introduction to Text Analytics  (0) 2023.09.13
[NLP] Attention in Seq2Seq Learning  (0) 2023.06.12