【強化学習】Actor-Critic - 行動者と評価者を同時に学習！【方策勾配法⑤】RL vol. 26 #202 #VRアカデミア #ReinforcementLearning

高評価: 86件

再生: 3,133回

公開日: 2025年4月27日

方策勾配法の応用第2弾！ Actor-Critic です。
方策の学習と、価値観数の学習それぞれに TD 誤差を用いる手法で、今までやってきたことの集大成という感じ！
その分からまる構造をちゃんと説明したので、たぶん世界一わかりやすいと思います！

とはいえ、TD 法と方策勾配法は覚えてないと厳しいので、見るのは大変かも！
わからないときはこちらを見てきてください！
TD 法 → https://www.youtube.com/watch?v=Mv62VMRczUo
方策勾配法 → https://www.youtube.com/watch?v=qyWev-rj5gg

【プレイリスト】
https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR

【目次】
To Be Appeared

【参考文献】
Barto, Andrew G., Richard S. Sutton, and Charles W. Anderson. "Neuronlike adaptive elements that can solve difficult learning control problems." IEEE transactions on systems, man, and cybernetics 5 (2012): 834-846.
https://ieeexplore.ieee.org/abstract/document/6313077

Sutton, Richard Stuart. Temporal credit assignment in reinforcement learning. University of Massachusetts Amherst, 1984.
https://www.proquest.com/openview/16b17efcf37774c8c0a5e29706dc8098/1?pq-origsite=gscholar&cbl=18750&diss=y

分析モデル入門
https://amzn.to/3Ng0nC7
私の本！　この動画シリーズは、この第3部強化学習の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。
合わせてみていただくと分かり易いかと！

強化学習（第2版）
https://amzn.to/3K4QsR8
Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ！
ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/

強化学習 (機械学習プロフェッショナルシリーズ)
https://amzn.to/44R2XYr
理論家向けの方にはこちら！
しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。

機械学習スタートアップシリーズ Pythonで学ぶ強化学習
https://amzn.to/3XYDrOM
手を動かしながら学びたい人向け！
サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます！

将棋AIで学ぶディープラーニング
https://www.amazon.co.jp/dp/B07B7JJ929
強化学習というと、将棋 AI を思い浮かべる人も少なくないはず！
そういう人におすすめ！
将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。
将棋を目指す方は、ぜひこれを見てみてください！
更に強いのを作るならこれ → https://amzn.to/3pU1aDa

強化学習の基礎と深層強化学習
https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning
合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。

【宣伝：本も買ってね！】
データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました！
本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7

データ分析に必要な数学を、基礎から最先端まで、過不足なく、数式の気持ちも含めて解説しました！
妥協しないデータ分析のための微積分+線形代数入門
https://amzn.to/3B4y8G4

【宣伝2：クラファンやってるよ！】
活動継続のためのご支援をお願いしています。詳細はこちら！
クラファン（月額）はこちら → https://community.camp-fire.jp/projects/view/709000
（クラファン始めた理由の動画 → https://www.youtube.com/watch?v=vXY34njwL4o ）

【終わりに】
ご視聴ありがとうございました！
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄や Twitter にどうぞ！
お仕事、コラボのご依頼、インターンの応募は、公式 WebPage や Twitter の DM からお願い致します。

AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top
動画生成：AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ )
動画編集：AIbis Solid (妹)

=======

Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio )
Model Design by: ばんちょうさん（ https://twitter.com/k_ban_ ）ママ！
3D Model by: キツネツキさん（ https://twitter.com/_kitsune_tsuki_ ）パパ！