|
・In English
<前提知識>
・強化学習とは
・pythonとは
■ε-greedy法とは
ε(イプシロン)-greedy法とは、強化学習において最適なアクションを効率よく学習するための手法で、学習初期は学習結果(Q値)に基づいたアクションを行わずに、できるだけランダムにアクションを行い、アクションに対する結果を広く確認します。
そして学習が進むに従い学習結果に基づいたアクションを行う方法のことです。アクションに対する反応を広く確認する様からgreedy(貪欲)と名付けられています。
そのアルゴリズムを説明します。εを以下の様に求め、εが所定値以下になったら学習結果を採用します。

■ε-greedy法の実装具体例
強化学習の実例を基に説明します。こちらをクリック。
サブチャンネルあります。⇒ 何かのお役に立てればと
|
|