|
前提知識
・Deep Q-Networkとは
■経験再生(Experience Replay)とは
経験再生(Experience Replay)とは、DQNにおいて学習の精度を高める手法の一つで、これまでとった行動を記憶し、一定の間隔で記憶した行動をランダムに複数個(これをバッチサイズといいます)選択し学習します。
これは定期的にランダムに学習することで、"時刻に対し相関が高い"と誤って学習してまう事を防止することできます。
また、これまで行った行動をランダムに学習するのではなく、学習に効果的と思われる行動や、頻度の少ない行動に対して優先的に選んで学習する方法を、優先度付き経験再生(Prioritized Experience Replay)といいます。
優先度をつける方法は、教師信号と学習値との差の絶対値を使用し、絶対値が大きい場合は学習の効果が高い、あるいは学習回数が少ないことを意味するので、replay時に優先的に抽出します。
絶対値が小さい場合は、学習の効果が低い、あるいは学習回数を十分重ねたということを意味しますので、replay時にあまり抽出しなくなります。
サブチャンネルあります。⇒ 何かのお役に立てればと
|
|