AlphaGoが3連勝!その思考方法とは?

シェアする

  • このエントリーをはてなブックマークに追加

こんばんは。

今日(もう昨日か)は第10回声優アワード授賞式があり、私の推し声優である、「りえりー」こと高橋李依さんが新人女優賞を受賞し、とても気分が良いです。絶対受賞すると思っていたので、案の定という感じなのですが。

高橋李依さんと言えば、「それが声優!」の主人公一ノ瀬双葉役で主人公デビューをし、アニメ内で誕生して現実でもライブ等の活動をしている声優ユニット「イヤホンズ」のリーダーにもなりました。他に「がっこうぐらし!」直樹美紀、「乱歩奇譚」コバヤシ少年、「コメット・ルシファー」カオン・ランチェスター等を演じ、今期は「この素晴らしい世界に祝福を!」めぐみん、「最弱無敗の神装機竜」ノクト・リーフレットに加えて「魔法つかいプリキュア!」主人公の朝日奈みらい・キュアミラクルを演じて映画デビューも果たす、今注目の若手声優ですね。

おっと、長くなってしまいました。ちなみに新人女優賞は他に上坂すみれさん(アナスタシア役、星野輝子役など)と田中あいみさん(土間うまるなど)、新人男優賞は武内駿輔さん(プロデューサー役など)などが受賞しました。

主演賞は女優賞が水瀬いのりさん、男優賞が松岡禎丞さんという、「ダンジョンに出会いを求めるのは間違っているだろうか」のコンビになりました。例の紐なつかしい。

さて、その裏で、ディープマインドによる囲碁ソフト"AlphaGo"が韓国のイ・セドル九段(世界ランク3位か4位)にまた勝ったらしいです。3連勝でトータル勝ち確定ですね。

今日はバイトがあって中継をあまり見られていないので、技術面について書いてみたいと思います。

モンテカルロ木探索とは

AlphaGoについて、下記のGoogle Japanブログで少し書かれています。

AlphaGo: マシンラーニングで囲碁を

論文はネイチャーで有料なので読めませんが、ここには「モンテカルロ木探索とディープニューラルネットワーク」を用いている、と書いています。

まず、「モンテカルロ木探索」を説明しましょう。

これは、「モンテカルロ法」「モンテカルロシミュレーション」などと言われますが、「ランダムにやってみる」という手法です。

実際には完全なランダムではないかもしれませんが、簡単のため、ランダムと表現します。

まず、現局面で、ランダムな手を選択し、その次の局面でもさらにランダムな手を選択し……という風に、ゲームの最後までやってみます(いつか終わると仮定します)。

そして、勝ったか負けたかを、各局面で選んだ手と共に記憶します。

これを物凄い回数繰り返すと、勝ちやすい手と負けやすい手が出てきます。

最も勝ちやすいと判断された手を選択します。

以上が、モンテカルロ木探索の簡単な説明です。(木というのは、現局面を根として次に到達可能な局面を繋げていった木構造のグラフを指します)

モンテカルロというのはカジノが盛んな都市名です。数値計算を多数のシミュレーションで確率的に行う手法をモンテカルロ法と言います(ビュフォンの針など)。確率に任せる部分を賭け事に掛けているのでしょう。

今までの囲碁ソフトはほとんどがこの手法だったそうです。

もちろんこれだと、無駄な手を大量に読んでしまうので、あまり高速に良い手を見つけられません。部分定跡や手筋などの知識を利用して改善はできますが、それだと作成者の知識に依存し、強さに限界が来ます。

また、モンテカルロ木探索は「学習」というプロセスが無いので、人工知能とは言い難いかもしれません。

AlphaGoはこれに加えて「ディープニューラルネットワーク(DNN)」を利用しています。DNNは学習を要する、今流行の人工知能モデルです。

今日は時間が無いので、DNNについては明日書きたいと思います。

スポンサーリンク
レクタングル(大)
レクタングル(大)

シェアする

  • このエントリーをはてなブックマークに追加

フォローする