マルコフ決定過程とは

トップメニュー

機械学習

機械学習とは

パラメトリックモデル

回帰,分類,クラスタリングの違い

分類(classification)

分類問題とは

ナイーブベイズフィルタ

符号関数による分類

ロジスティック回帰
・線形分離
・非線形分離

サポートベクターマシン

ニューラルネットワーク(NN)

パーセプトロン

勾配法(最急降下法)
・機械学習への適用

損失関数(誤差関数)

誤差逆伝播法

交差検証 , ホールドアウト

活性化関数
・ステップ , 符号関数
・シグモイド
・ReLU
・Softmax
・tanh

MNISTデータセット

CIFAR-10データセット

画像認識方法

画像認識方法②

畳み込みNN(CNN)

再帰型NN(RNN)

kerasによる実装例
・NN
・CNN
・ディープラーニング

クラスタリング

強化学習

強化学習とは

価値関数 , ベルマン方程式

マルコフ決定過程

TD学習_スキナー箱

TD学習_Cartpole

モンテカルロ法_Blackjack

Deep Q-Network(DQN)
・DQNとは_スキナー箱
・cartpole問題
・Experience Replay

敵対的生成ネットワーク

GAN

seqGAN用文章データ作成

大規模言語モデル(LLM)

LLMの基本原理

RAGとナレッジグラフの違い

公開日:2020/5/7　　　　　　　　　

前提知識
・確率過程
・強化学習

マルコフ決定過程(Markov Decision Process,MDP)とは確率過程の一種で、現在の状態とその時の行動結果から確率論的に将来の状態を決定し、かつ行動結果に対して報酬を紐づける状態遷移モデルで、以下式で表します。これは主に強化学習の分野で使用されます。MDPとマルコフ過程の違いは、MDPはマルコフ過程に対して行動と報酬の概念が加わっている所です。

ゴルフを具体例に説明します。以下がMDPの状態遷移図になります。ゴルフボールのある位置を「状態」、打つクラブの種類を「行動」とします。ティーグラウンドから開始し、ドライバかアイアンを選択して打ちます。どちらを選択するかを決める考え方の事を方策(Policy)といい、以下で表します。

上記において、状態が決まったらアクションが一意に決まることを決定論的方策(Deterministic Policy)といい、確率的にアクションが変わることを確率論的方策(Stochastic Policy)といいます。

さてここでドライバーが選択された場合、ボールの行き先がグリーン、ティーグラウンド(OB)、カップ、いずれになるかマルコフ決定過程によって決定されます。この時、各状態に対する確率値の合計は1となります。

カップに入った場合は報酬が+1、できるだけ少ない打数でカップに入った方が良いので、カップに入る以外はペナルティとして報酬はマイナスとなります。

例えば、今の状態がティーグラウンドでドライバーを打つ確率は(2)式より以下で表します。

ドライバーを打つと決まり、その時カップの状態になる確率は(1)式より以下で表します。

サブチャンネルあります。⇒ 何かのお役に立てればと

関連記事一覧

トップメニュー

機械学習

機械学習とは

パラメトリックモデル

回帰,分類,クラスタリングの違い

分類(classification)

分類問題とは

ナイーブベイズフィルタ

符号関数による分類

ロジスティック回帰
・線形分離
・非線形分離

サポートベクターマシン

ニューラルネットワーク(NN)

パーセプトロン

勾配法(最急降下法)
・機械学習への適用

損失関数(誤差関数)

誤差逆伝播法

交差検証 , ホールドアウト

活性化関数
・ステップ , 符号関数
・シグモイド
・ReLU
・Softmax
・tanh

MNISTデータセット

CIFAR-10データセット

画像認識方法

画像認識方法②

畳み込みNN(CNN)

再帰型NN(RNN)

kerasによる実装例
・NN
・CNN
・ディープラーニング

クラスタリング

強化学習

強化学習とは

価値関数 , ベルマン方程式

マルコフ決定過程

TD学習_スキナー箱

TD学習_Cartpole

モンテカルロ法_Blackjack

Deep Q-Network(DQN)
・DQNとは_スキナー箱
・cartpole問題
・Experience Replay

敵対的生成ネットワーク

GAN

seqGAN用文章データ作成

大規模言語モデル(LLM)

LLMの基本原理

RAGとナレッジグラフの違い