強化学習デザイナーについて

Question

ryuuzi il 8 Nov 2024

Risposto: Hiro Yoshino il 2 Dic 2024

強化学習デザイナーを用いて自作の環境インポートし、エージェントを作成させて学習させています。

しかし、私が望むデータが得られず困っています。そこ伺いたい事なんですが、強化学習デザイナーで作成するエージェントはcartpoleの環境に依存している物でしょうか？ただ私の作成した環境に問題があるのでしょうか？

参考までに私が作成した環境は正弦波を用いて振幅をの最大値を求めようとしたものです

よろしくお願いします

Answer 1

Hiro Yoshino il 2 Dic 2024

"データが得られずに" の部分が良く理解できていませんが、アプリで作成するエージェントは特定の環境に異存している物では有りません。

環境の作成方法は色々ありまして、時間に沿ったシミュレーションを行う環境でしたら Simulink で作成したり、そうでなければ MATLAB で作成するなど様々んです。action を加えることができ、そこから報酬と状態を取り出すことが出来れば環境としては満足しています。

上手く動作しないのは、適当なアルゴリズムが選択できていない、適当な方策の表現方法が選択出来ていない、学習パラメータが適当に設定されていない、そして一番多いのが報酬が上手く設定されていない ... 色々と原因が考えられます。

報酬の設定で四苦八苦されるパターンが多く、この reward shaping が強化学習の鍵です