LSTM을 알아보기 전, RNN의 단점
- Hidden State로 인코딩된 정보는 최근이며, 정보를 빠르게 잊어버리는 경향이있다.
- E.g. The flights the airline was canceling were full
- RNN은 현재 의사 결정/출력에 유용한 정보를 제공하고 향후 의사 결정을 위해 정보를 전달하는 두 가지 작업을 동시에 수행하기 때문이다.
- Hidden Layer에서 많은 곱셈 작업으로 인해 그라데이션 문제가 사라진다.
Long shorter-term memory(LSTM) 네트워크란?
- LSTM에는 네트워크를 통한 정보(컨텍스트)의 흐름을 제어하는 게이트가 있다.
- 각 게이트는 시그모이드 활성화 함수가 있는 Feed Forward 네트워크이다.
- 게이트의 출력은 게이트가 적용되는 레이어와 포인트 단위로 곱해진다.
- 게이트는 결국 이진 마스크의 효과를 갖는데, 시그모이드 함수는 값을 0과 1에 가깝게 생성하는 경향이있다.
Gates 게이트 종류
- Forget gate: 더 이상 필요하지 않은 정보를 컨텍스트에서 삭제한다.
- Add gate: 현재 컨텍스트에 추가할 정보를 선택한다.
- Output gate: 현재 Hidden State에 필요한 정보를 결정하는데 사용된다. (향후 State를 위해 보존되는 대신에)
- 이전 State의 숨겨진 Layer(h_(t-1))와 현재 입력(x_(t))의 Weight 합계
- 현재 Hidden State에 필요한 컨테그트 정보 추출(tanh가 컨텍스트를 이진마스크로 변환한다.)