対象読者
- 疑心暗鬼でなかなか行動できない方
- 既にチャレンジしていて、勇気をもらいたい方
結論
- 未知なことに対してとりあえずチャレンジするべき
根拠
先の分からぬ人生において、どういう行動をとっていくべきか。これは皆が直面している重大な問題だ。AIも我々と同じ問題と対峙していて、それに有効な手立てがあることが分かっている。この手立てをまとめると上記の結論を得る。この結論を支持する科学的根拠はチャレンジャーや保守的な方に行動の勇気をもたらすに違いない。詳細を以下で追う。
強化学習
AIの分野の1つに強化学習というものがある。未知の環境の中、状況に応じて最大の報酬を得るために、どういう行動をとるべきかを学習することである。これは我々人間がかかえる問題と同じものだ。
以下で典型的な強化学習の問題例を見る。
多腕バンディット問題
多腕バンディットとはアメリカにおけるスロットマシンの俗語である。それぞれの腕ごとに当たりが出る確率はバラバラであるが、その確率は既知ではない。そんな状況下で、最適な(最も当たりが出る確率が高い)腕を素早く探し出し、最大の報酬を得るためにどうすればいいか、という問題だ。
最適な腕を見つけるためには、それぞれの腕を回してみて、腕の良し悪しを確かめながら試行錯誤するしかない。こんな単純な問題であるが、そこには困難さを伴う。
探索と利用のトレードオフ
- 探索とは、より良い行動を探すために行動する(腕を回す)ことであり、
- 利用とは、学習済みの知識の中から最良の行動を取ることだ。
探索すると、利用によって得られるはずだった報酬が得られなくなる。一方、利用すると、もっと良い腕があるかもしれないのに、学習した範囲内で最良に見える腕に捕らわれてしまう。
- 得られるはずだった報酬を取り損なうリスク
- 最適な行動を取り違えるリスク
良い腕が悪い腕のように見えることもある。高確率で当たりが出るとしても、初めにハズレが連続で出ることもあり得るからだ。失敗したからといって、それを早計に悪と断定することは危険だ。
しかし、疑心暗鬼に特定の腕について何回試行したとしても、真の確率は知り得ない。探索し続けることは不毛だ。だからといって、ある程度の正確さで腕の良し悪しを早く知って、利用していきたい。
このトレードオフの中で、バランスを取りながら、最大の報酬が得られる行動を選択できるようになるにはどうすればいいのか。それは積極的に未知に挑戦していくことだ。
楽観的初期値法
学習初期の段階で腕の良さを過大に見積もるのが楽観的初期値法だ。なぜそんなことをするのか。それは、行動の再評価の非対称性にある。
- 誤って悪い腕だと学習されてしまった場合、もうその腕について試行することはなくなり、正しい認識に修正する機会は失われてしまう。
- 誤って良い腕だと学習されてしまった場合、その腕は利用によって今後も試行されるようになる。その結果、その腕は過大評価されていたことが分かり、適切な評価に修正できる。
この手法を用いれば、探索を行いつつ、利用もバランスよく行うことができる。取りあえず、良く知らないが良い腕だろう、と楽観的に評価して、後に自然とその評価が間違っていたことが明らかになっていくところがポイントだ。
まとめ
以上はAIの一分野である強化学習の話だが、未知の環境において最善を模索する姿勢は大いに参考にすべきだと思った。
コメント