LSTM の概要 - 技術をかじる猫

時系列データを利用するDeepLearningの一種。

LSTM = Long short-term memory
以前やってた RNN の一種だけど、記憶のやり方が異なる。

RNN はこれね…

LSTM は以下のようなセルとゲートがあり、それぞれのゲートに学習パラメータを持ってる。

f:id:white-azalea:20210927224336p:plain

加えて記憶セル → 積の間の Tanh も学習パラメータがあるので、学習パラメータが計4か所もあるという…

忘却ゲート

忘却ゲートはこんな感じ

$A^{(t)}_0 = \sigma ( X^{(t)} W_0 + Y^{(t-1)} V_0 + B_0 )$

W,Bは重みとバイアス。これは前回までもそうだったので今更である。
入力ゲートと新しい記憶データの $Tanh$ はこんな感じになる

$A^{(t)}_1 = \sigma ( X^{(t)} W_1 + Y^{(t-1)} V_1 + B_1 )$

まぁ内容は見たままやね。

$A^{(t)}_2 = tanh ( X^{(t)} W_2 + Y^{(t-1)} V_2 + B_2 )$

こいつらって結構見たままなのよね

$A^{(t)}_3 = \sigma ( X^{(t)} W_3 + Y^{(t-1)} V_3 + B_3 )$

というか活性関数通す連中だから基本楽ですよね。

しかしこれを微分するのか…気が滅入るな…