データ分析(2/2)
機械学習(の続き)
- 強化学習
- 構成要素は『エージェント』『行動』『環境』『報酬』から成る。
- 機械学習の目標は、エージェントが、状態sで行動aを起こしたときに得られる報酬 Q(s,a) の中で、最も高い値の行動aを最適な行動とし、状態遷移を繰り返すこと。
- Q学習:エージェントが行動した結果の価値(Q値)を、時間とともに繰り返し更新していく学習。更新では状態s、行動aと、割引率γを用いる。
- 割引率:時間の経過によって変動する価値を調整するためのウエイト。
- 構成要素は『エージェント』『行動』『環境』『報酬』から成る。
回帰分析
…ここでまた「教師あり学習」に戻るのか…
…この本、微妙に行ったり来たするのでわかりづらいなぁ…
…いったん整理しよう…