「脳・心・人工知能」 甘利俊一著 へのメモ書き(3) 強化学習

「『脳・心・人工知能』 甘利俊一著」

を読んで、「スパース表現」の概念とならんでもうひとつひっかかった内容は「強化学習」に関する記述です。

 たとえば囲碁や将棋などのゲームを考えよう。現在の局面で、どんな手を打つのがよいだろうか。可能な手の中から1つを選んで実行すると、局面が変わる。これでよくなるかもしれないし、悪くなるかもしれない。目的は最終的に勝利の局面に至ることである。でたらめに手を打って試行錯誤を重ねたのでは、勝利はなかなか得られない。
 どういう手がよいかを途中で教えてくれる教師は、現実の世界には通常いない。勝ち負けは局面の最後で決まり、この結果がゲームの報酬である。


「『脳・心・人工知能』 甘利俊一著」より

このようなゲームをさせるAIの技法は、一昔前(1980年代)のAIであれば探索と呼ばれる技法でした。これをニューロの世界でどう扱うかは、興味のある話題です。

こちらがある手を打ったからといってその結果局面がどう動くかは確率に従って決まる。ゲームの場合なら、相手の打つ手はわからないから、その時々でランダムな要因が入ってくる。このような問題は、「マルコフ決定過程」と呼ばれ、多くの研究があった。
 マルコフ決定過程での学習戦略は、心理学の言葉を使って「強化学習」と呼ばれる。最後の結果から、途中でのよい戦略を推定してこれを強化する。そのために、各局面(これを「状態」と呼ぼう)に対して、それがどのくらいよいかの価値付けをする。
 状態SV(S)の価値があるとしよう。Sが勝利に近い局面の場合はこの状態の価値が高いし、負けパターンなら低い。状態の価値は直接教えてもらえない。学習によって学び取らなければいけない。


同上

価値V(S)というのは、以前のAIで評価関数と呼ばれていたものでしょうか? この評価関数をどう設定するかが大きな問題でした。そして、学習によってそれをどう改善していくか、というのも問題でした。しかし、私は上の引用で「確率」が出てくるところに違和感があります。と同時にここが鍵かな、とも思います。

状態Sにいるときに、自分はどんな手を打ったらよいだろう。可能な手はたくさんある。1つの手(アクションという)Aを選ぶと状態は変化し、SAとで決まる新しい状態S'=F(S,A)へと移っていく。
 しかしこれは確率的で、実際にはAを選ぶと、それによってSS'に移る確率が与えられる。ただし、この確率も未知である。状況が確率的であるから、自分の戦略も確率的にして、状態がSにあるときにアクションAを選ぶ確率を定め、局面を確率的に動かしていく。この確率を\pi(A|S)と書こう。


同上

だんだん話が分からなくなってきます。

期待していた以上に結果がよい場合も、逆に悪い場合も、自分の認識がどこか事実と違っているということである。何が悪かったかというと、状態の評価V(S)が間違っていたのかもしれないし、Aを選ぶ確率が違っていたのかもしれない。結果が予想以上によかった場合にも、同じことがいえる。


同上

確かにここが課題の核心なのですが、ではどうやってそれを解くかというと、次のように非常にはしょった記述しかなく残念です。

このとき、現在の認識を変えなくてはいけない。変えるのは、状態Sの評価値と、それからAを選ぶ確率\piである。これは確率分布の話なので、ここで確率降下法が使える。しかも、リーマン空間の中の話であるから、情報幾何を使った戦略自然勾配法が有力である。


同上

「これは確率分布の話なので、ここで確率降下法が使える」と言われても理解できません。「しかも、リーマン空間の中の話であるから」と言われても、今までの記述のどこに「リーマン空間」が出てきたのか分かりません。「情報幾何」はそれこそ甘利先生創始の学問ですが、これも私にはほとんど分かりません。私が理解しているのは、通信路における問題で、その時の雑音の特性によって空間の形を決めていくような話だったと思います。これが上のゲームの話とどう関連するのかさっぱり見当がつきません。