読者です 読者をやめる 読者になる 読者になる

Expectimax とは何か? Minimaxとの違いは?

Expectimaxについて、 日本語で解説してるサイトを見つけられなかったので 自力で Expectimax を調べてみた結果を整理してみる。 ExpectiMaxとは 行動を確率の分岐として描けるような場合に、 ある分岐以降の価値(重み)を、その分岐の1つ先の階層にある価値…

Python - 強化学習(マルコフ決定過程)のコードリーディング

強化学習のメモ このQiita記事に従って触っていたものの、コードを前にハテナがいくつか浮かんだので、解釈した結果をメモ。 qiita.com サンプルコード群 By UC Berkeley github.com 以下、掲題の通り、マルコフ決定過程のサンプルコードに関する解釈です。 …