【強化学習】Policy Gradient - なぜ? のギモンに答える概要編!【方策勾配法①】RL vol. 23 #195 #VRアカデミア #ReinforcementLearning
高評価: 186件
再生: 5,031回
公開日: 2025年1月26日
方策勾配法の数式は難しい! なんでわざわざこんなもの使うの? これを使うとなんで良いの? そんな疑問にお答えする概要編です!
次回の証明編で、「強化学習での証明との向き合い方は?」「方策勾配法に潜む混乱ポイントとその対処」「どっからこの式が出てきたの?」を扱うので、そこまではぜひ見てね!【プレイリスト】
https://www.youtube.com/playlist?list=PLhDAH9aTfnxI1OywfnxXCDTWGtYL2NxJR【目次】
To Be Appeared【参考文献】
Marbach, Peter, and John N. Tsitsiklis. "Simulation-based optimization of Markov reward processes." IEEE Transactions on Automatic Control 46.2 (2002): 191-209.
https://ieeexplore.ieee.org/abstract/document/905687/Sutton, Richard S., Satinder Singh, and David McAllester. "Comparing policy-gradient algorithms." IEEE Transactions on Systems, Man, and Cybernetics 30.4 (2000): 467-477.
http://incompleteideas.net/papers/SSM-unpublished.pdfWilliams, Ronald J. Reinforcement-learning connectionist systems. College of Computer Science, Northeastern University, 1987.
(リンク発見できませんでした)分析モデル入門
https://amzn.to/3Ng0nC7
私の本! この動画シリーズは、この第3部 強化学習 の内容を動画向けにアレンジ、大幅追加、大幅削除したものです。
合わせてみていただくと分かり易いかと!強化学習(第2版)
https://amzn.to/3K4QsR8
Sutton 先生の「強化学習」本の和訳です。分厚いですが、時間があり、基礎をしっかり学びたい人におすすめ!
ちなみに、英語版は公式で pdf もダウンロードできます → http://incompleteideas.net/book/強化学習 (機械学習プロフェッショナルシリーズ)
https://amzn.to/44R2XYr
理論家向けの方にはこちら!
しっかりと数式が解説されており、基礎の理論をしっかりと学ぶことができます。機械学習スタートアップシリーズ Pythonで学ぶ強化学習
https://amzn.to/3XYDrOM
手を動かしながら学びたい人向け!
サンプルコードとともに、基礎的な強化学習アルゴリズムを学べます!将棋AIで学ぶディープラーニング
https://www.amazon.co.jp/dp/B07B7JJ929
強化学習というと、将棋 AI を思い浮かべる人も少なくないはず!
そういう人におすすめ!
将棋 AI 向けの強化学習は、他の参考文献にある方法とはかなり異なる方法で作られます。
将棋を目指す方は、ぜひこれを見てみてください!
更に強いのを作るならこれ → https://amzn.to/3pU1aDa強化学習の基礎と深層強化学習
https://www.slideshare.net/ShotaImai3/rlssdeepreinforcementlearning
合間に広告が貼ることが極めて重い欠点ですが、内容は素晴らしく、全体感を見渡すことができます。【宣伝:本も買ってね!】
データサイエンスに頻出の分析モデルを、全領域、深く、書きあげました!
本質を捉えたデータ分析のための分析モデル入門 https://amzn.to/3Ng0nC7データ分析に必要な数学を、基礎から最先端まで、過不足なく、数式の気持ちも含めて解説しました!
妥協しないデータ分析のための 微積分+線形代数入門
https://amzn.to/3B4y8G4【宣伝2:クラファンやってるよ!】
活動継続のためのご支援をお願いしています。詳細はこちら!
クラファン(月額)はこちら → https://community.camp-fire.jp/projects/view/709000
(クラファン始めた理由の動画 → https://www.youtube.com/watch?v=vXY34njwL4o )【終わりに】
ご視聴ありがとうございました!
面白かったら高評価、チャンネル登録お願いします。
動画の質問、感想などは、コメント欄や Twitter にどうぞ!
お仕事、コラボのご依頼、インターンの応募は、公式 WebPage や Twitter の DM からお願い致します。AIcia Solid Project - Official Website - https://sites.google.com/view/aicia-official/top
動画生成:AIcia Solid (Twitter: https://twitter.com/AIcia_Solid/ )
動画編集:AIbis Solid (妹)=======
Logo: ChikakoHorioさん ( https://twitter.com/ChikakoHorio )
Model Design by: ばんちょうさん( https://twitter.com/k_ban_ )ママ!
3D Model by: キツネツキさん( https://twitter.com/_kitsune_tsuki_ ) パパ!
説明文の続きを見る
強化学習の探検
強化学習の基礎から深層強化学習まで解説します。 将来的に、以下の内容をカバーする予定です: 1. 強化学習とは 2. 基礎的アルゴリズム (Tabular Reinforcement Learning) 3. 深層強化学習 (Deep Reinforcement Learning) 4. 探索技法 5. AlphaGo 6. LLM, Diffusion Models と強化学習
- ▲ 前の10件を見る
- 【強化学習】後方観測TD(λ) と eligibility trace【強化学習の基礎アルゴリズム】RL vol. 19 #187 #VRアカデミア #ReinforcementLearning
- 【強化学習】eligibility trace - 前方から後方観測へ!【強化学習の基礎アルゴリズム】RL vol. 20-1 #188 #VRアカデミア #ReinforcementLearning
- 【強化学習】eligibility trace 後半 - 数式徹底解説!【強化学習の基礎アルゴリズム】RL vol. 20-2 #188 #VRアカデミア #ReinforcementLearning
- 【強化学習】忙しい人のための eligibility trace RTA【強化学習の基礎アルゴリズム】RL vol. 21 #190 #VRアカデミア #ReinforcementLearning
- 【強化学習】深層強化学習入門 - 全体像を見ていこう!【いざ深層強化学習】RL vol. 22 #193 #VRアカデミア #ReinforcementLearning
- 【強化学習】Policy Gradient - なぜ? のギモンに答える概要編!【方策勾配法①】RL vol. 23 #195 #VRアカデミア #ReinforcementLearning
- 【強化学習】Policy Gradient - 証明! 混乱の原因と証明との向き合い方【方策勾配法②】RL vol. 24-1 #197 #VRアカデミア #ReinforcementLearning
- 【強化学習】Policy Gradient - ガチ勢向け証明 for 無限の場合【方策勾配法③】RL vol. 24-2 #198 #VRアカデミア #ReinforcementLearning
- 【強化学習】REINFORCE - 【方策勾配法④】RL vol. 25 #200 #VRアカデミア #ReinforcementLearning
- 【強化学習】Actor-Critic - 行動者と評価者を同時に学習!【方策勾配法⑤】RL vol. 26 #202 #VRアカデミア #ReinforcementLearning
- 【強化学習】Actor-Critic と eligibility trace【方策勾配法⑥】RL vol. 27 #206 #VRアカデミア #ReinforcementLearning
- ▼ 次の10件を見る
アイシア動画
- ▲ 前の10件を見る
- 【強化学習】忙しい人のための eligibility trace RTA【強化学習の基礎アルゴリズム】RL vol. 21 #190 #VRアカデミア #ReinforcementLearning
- 【特異値分解⑨】関係の分解 - 関係を表現する行列に特異値分解を用いてみよう【行列31 tviRuj = μiδij】 #191 #VRアカデミア #線型代数入門
- 【特異値分解⑩】関係の分解と計算 - 分解を用いて見通しよく計算!【行列32 t(Σxivi)R(Σyjuj) = Σμixiyi】 #192 #VRアカデミア #線型代数入門
- 【強化学習】深層強化学習入門 - 全体像を見ていこう!【いざ深層強化学習】RL vol. 22 #193 #VRアカデミア #ReinforcementLearning
- 【特異値分解11】関係の分解と計算2 - 内積で成分抽出しよう!【行列33 taRb = Σμi(a・vi)(b・ui)】 #194 #VRアカデミア #線型代数入門
- 【強化学習】Policy Gradient - なぜ? のギモンに答える概要編!【方策勾配法①】RL vol. 23 #195 #VRアカデミア #ReinforcementLearning
- 【特異値分解12】特異値分解 - 数式 R = VMU-1 の意味そのものを掴む!【行列34 R = VMU-1】 #196 #VRアカデミア #線型代数入門
- 【強化学習】Policy Gradient - 証明! 混乱の原因と証明との向き合い方【方策勾配法②】RL vol. 24-1 #197 #VRアカデミア #ReinforcementLearning
- 【強化学習】Policy Gradient - ガチ勢向け証明 for 無限の場合【方策勾配法③】RL vol. 24-2 #198 #VRアカデミア #ReinforcementLearning
- 【特異値分解13】正準相関分析 - 2群の変数間の複雑な関係をスッキリ理解!【行列35 正準相関分析】 #199 #VRアカデミア #線型代数入門
- 【強化学習】REINFORCE - 【方策勾配法④】RL vol. 25 #200 #VRアカデミア #ReinforcementLearning
- ▼ 次の10件を見る
人気のチャンネル
予備校のノリで学ぶ「大学の数学・物理」
予備校のノリで学ぶ「大学の数学・物理」のチャンネルでは主に ①大学講座:大学レベルの理系科目 ②高校講座:受験レベルの理系科目 の授業動画を...
1,260,000人
661本
313,350,689回
4,685,206件
【楽しい授業動画】あきとんとん
ただの塾講師。 勉強が苦手な人のために,動画をあげていきたいと思います。 気付いたら,勉強の知識が入っていた!!ってぐらい楽しい授業を目...
630,000人
924本
42,184,016回
823,036件
YouTube高校 / 日本史・世界史
日本中を回って撮影した映像で日本史解説の動画を作っています Twitter:Y_Eschool Instagram:You.ele....
621,000人
407本
124,951,664回
908,134件





ラッキー動画







