経験再生(Experience Replay)とは

トップメニュー

機械学習

機械学習とは

パラメトリックモデル

回帰,分類,クラスタリングの違い

分類(classification)

分類問題とは

ナイーブベイズフィルタ

符号関数による分類

ロジスティック回帰
・線形分離
・非線形分離

サポートベクターマシン

ニューラルネットワーク(NN)

パーセプトロン

勾配法(最急降下法)
・機械学習への適用

損失関数(誤差関数)

誤差逆伝播法

交差検証 , ホールドアウト

活性化関数
・ステップ , 符号関数
・シグモイド
・ReLU
・Softmax
・tanh

MNISTデータセット

CIFAR-10データセット

画像認識方法

画像認識方法②

畳み込みNN(CNN)

再帰型NN(RNN)

kerasによる実装例
・NN
・CNN
・ディープラーニング

クラスタリング

強化学習

強化学習とは

価値関数 , ベルマン方程式

マルコフ決定過程

TD学習_スキナー箱

TD学習_Cartpole

モンテカルロ法_Blackjack

Deep Q-Network(DQN)
・DQNとは_スキナー箱
・cartpole問題
・Experience Replay

敵対的生成ネットワーク

GAN

seqGAN用文章データ作成

大規模言語モデル(LLM)

LLMの基本原理

RAGとナレッジグラフの違い

公開日:2021/5/4　　　　　　　　　

前提知識
　・Deep Q-Network(DQN)

■経験再生(Experience Replay)とは

経験再生(Experience Replay)とは、DQNにおいて学習精度を高める手法の一つで、これまでとった行動を記憶し、一定の間隔で記憶した行動をランダムに複数個(これをバッチサイズといいます)選択し学習します。こうして定期的にランダムに学習することで、"時刻に対し相関が高い"と誤って学習してまう事を防止することできます。

またこれまでの行動をランダムに学習するのではなく、学習に効果的と思われる行動や、頻度の少ない行動に対して優先的に選んで学習する方法を、優先度付き経験再生(Prioritized Experience Replay)といいます。優先度をつける方法は、教師信号と学習値との差の絶対値を使用し、絶対値が大きい場合は学習の効果が高い、あるいは学習回数が少ないことを意味するので、replay時に優先的に抽出します。絶対値が小さい場合は、学習の効果が低い、あるいは学習回数を十分重ねたということを意味しますので、replay時にあまり抽出しなくなります。

サブチャンネルあります。⇒ 何かのお役に立てればと

関連記事一覧

トップメニュー

機械学習

機械学習とは

パラメトリックモデル

回帰,分類,クラスタリングの違い

分類(classification)

分類問題とは

ナイーブベイズフィルタ

符号関数による分類

ロジスティック回帰
・線形分離
・非線形分離

サポートベクターマシン

ニューラルネットワーク(NN)

パーセプトロン

勾配法(最急降下法)
・機械学習への適用

損失関数(誤差関数)

誤差逆伝播法

交差検証 , ホールドアウト

活性化関数
・ステップ , 符号関数
・シグモイド
・ReLU
・Softmax
・tanh

MNISTデータセット

CIFAR-10データセット

画像認識方法

画像認識方法②

畳み込みNN(CNN)

再帰型NN(RNN)

kerasによる実装例
・NN
・CNN
・ディープラーニング

クラスタリング

強化学習

強化学習とは

価値関数 , ベルマン方程式

マルコフ決定過程

TD学習_スキナー箱

TD学習_Cartpole

モンテカルロ法_Blackjack

Deep Q-Network(DQN)
・DQNとは_スキナー箱
・cartpole問題
・Experience Replay

敵対的生成ネットワーク

GAN

seqGAN用文章データ作成

大規模言語モデル(LLM)

LLMの基本原理

RAGとナレッジグラフの違い