Search image

【強化学習】Actor-Critic - 行動者と評価者を同時に学習!【方策勾配法⑤】RL vol. 26 #202 #VRアカデミア #ReinforcementLearning

Bt to youtube video

高評価: 86件

再生: 3,133回

公開日: 2025年4月27日

方策勾配法の応用第2弾! Actor-Critic です。
方策の学習と、価値観数の学習それぞれに TD 誤差を用いる手法で、今までやってきたことの集大成という感じ!
その分からまる構造をちゃんと説明したので、たぶん世界一わかりやすいと思います!

とはいえ、TD 法と方策勾配法は覚えてないと厳しいので、見るのは大変かも!
わからないときはこちらを見てきてください!
TD 法 → https://www.youtube.com/watch?v=Mv62VMRczUo
方策勾配法 → https://www.youtube.com/watch?v=qyWev-rj5gg

【プレイリスト】
https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR

【目次】
To Be Appeared

【参考文献】
Barto, Andrew G., Richard S. Sutton, and Charles W. Anderson. "Neuronlike adaptive elements that can solve difficult learning control problems." IEEE transactions on systems, man, and cybernetics 5 (2012): 834-846.
https://ieeexplore.ieee.org/abstract/document/6313077

Sutton, Richard Stuart. Temporal credit assignment in reinforcement learning. University of Massachusetts Amherst, 1984.
https://www.proquest.com/openview/16b17efcf37774c8c0a5e29706dc8098/1?pq-origsite=gscholar&cbl=18750&diss=y

分析モデル入門
https://amzn.to/3Ng0nC7
私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。
合わせてみていただくと分かり易いかと!

強化学習(第2版)
https://amzn.to/3K4QsR8
Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ!
ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/

強化学習 (機械学習プロフェッショナルシリーズ)
https://amzn.to/44R2XYr
理論家向けの方にはこちら!
しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。

機械学習スタートアップシリーズ Pythonで学ぶ強化学習
https://amzn.to/3XYDrOM
手を動かしながら学びたい人向け!
サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます!

将棋AIで学ぶディープラーニング
https://www.amazon.co.jp/dp/B07B7JJ929
強化学習というと、将棋 AI を思い浮かべる人も少なくないはず!
そういう人におすすめ!
将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。
将棋を目指す方は、ぜひこれを見てみてください!
更に強いのを作るならこれ → https://amzn.to/3pU1aDa

強化学習の基礎と深層強化学習
https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning
合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。

【宣伝:本も買ってね!】
データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました!
本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7

データ分析に必要な数学を、基礎から最先端まで、過不足なく、数式の気持ちも含めて解説しました!
妥協しないデータ分析のための 微積分+線形代数入門
https://amzn.to/3B4y8G4

【宣伝2:クラファンやってるよ!】
活動継続のためのご支援をお願いしています。詳細はこちら!
クラファン(月額)はこちら → https://community.camp-fire.jp/projects/view/709000
(クラファン始めた理由の動画 → https://www.youtube.com/watch?v=vXY34njwL4o

【終わりに】
ご視聴ありがとうございました!
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄や Twitter にどうぞ!
お仕事、コラボのご依頼、インターンの応募は、公式 WebPage や Twitter の DM からお願い致します。

AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top
動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ )
動画編集:AIbis Solid (妹)

=======

Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio )
Model Design by: ばんちょうさん( https://twitter.com/k_ban_ )ママ!
3D Model by: キツネツキさん( https://twitter.com/_kitsune_tsuki_ ) パパ!

説明文の続きを見る

Phqxfllj0xw tfrjfzvfsof vihxvikc1hosnpdevcyijftrrzsvvroll5tpg26invd3ycig=s800 c k c0x00ffffff no rjAIcia Solid Project

Hqdefault強化学習の探検

強化学習の基礎から深層強化学習まで解説します。 将来的に、以下の内容をカバーする予定です: 1. 強化学習とは 2. 基礎的アルゴリズム (Tabular Reinforcement Learning) 3. 深層強化学習 (Deep Reinforcement Learning) 4. 探索技法 5. AlphaGo 6. LLM, Diffusion Models と強化学習

Phqxfllj0xw tfrjfzvfsof vihxvikc1hosnpdevcyijftrrzsvvroll5tpg26invd3ycig=s800 c k c0x00ffffff no rjAIcia Solid Project

Hqdefaultアイシア動画

Luckeyラッキー動画

ラッキー動画とは登録されている全動画の中からランダムに選ばれた動画です。運命の出会いかも?!

Pickup iconPick upチャンネル

全国の高校入試で出題された数学の難問を分かりやすく解説しているチャンネルです。他の生徒と差をつけたい難関高校を目指している中学生は要チェックです!

Studytube icon 96ログイン

Interview header 360 Question header 360
Studytuber banner 300

Studytube icon 96チャンネル登録

教育系のYouTubeチャンネルを運営されている方はチャンネル情報の登録に是非ご協力ください。ログイン後、読み込みボタンをクリックすることでチャンネルデータが自動で読み込まれます。

Studytube icon 96ご意見・ご感想

※お返事が必要な場合はお問い合わせからお願いいたします。