Microsoftの麻雀AI Suphxが天鳳10段を達成

Microsoftの麻雀AI Suphx が天鳳10段を達成したことが話題になっています。リリース文によると、東京大学の「爆打」・ドワンゴの「NAGA25」に比べても強いAIに仕上がっている模様。



麻雀AIの学習について

今回の麻雀AIについて、Microsoftはこう書いている。

巨大な状態空間: 52 枚のカードしか扱わないテキサスポーカーと比較して、麻雀の牌は 136 個あり、その場合分けには明らかに巨大な状態空間を必要とします。そして、麻雀では、4 人のプレイヤーの順番は固定されていません。誰かが「鳴く」ことにより、自摸(ツモ: 牌を一枚取得する)の順番が突然変わります。また、他の 3 人のプレイヤーの配牌や自摸により、状況は大きく変化します。これらの特性により、麻雀では、AlphaGo などのボードゲームで一般的に使用されているモンテカルロ木探索を直接使用することができません。

「モンテカルロ木探索を直接使用することができません」とあるのは、既存の「爆打」の論文でも書かれている。

モンテカルロの手を用いることは序盤であっても可能であるが,和了まで時間がかかるため,精度の高い手を選択することは難しい.そのため序盤は一人麻雀の手を用いる.一人麻雀の手からモンテカルロの手に切り替えには以下の条件のいずれかを満たしたときである.

  • 誰かがリーチをかけた時
  • ツモが可能な牌の数が 16 枚以下
  • Σp∈opponents EL(p,Tile) foldvalue≦ 0.2


興味深い戦略としては、隠れた情報をすべて知っている状態で選択の成否を判断していることが上げられる。これ、ぶっちゃけて言えば、神の視点を教師として学習しているようなものですよね。この方向を突き詰めていけば、次のツモを予測して「御無礼」とか言ったりできるのでしょうか(無理)。

次に、「不完全情報ゲーム」の課題に対応するために、Suphx のモデルは、自己対戦戦略を取り入れています。「不完全情報ゲーム」では、何が最適な選択かを判断するのは困難です。自己対戦においては、対戦相手の手牌や山の中の牌などの隠れた情報をすべて知っていると仮定したもとで、Suphx の選択が適切であるかを判断します。このフィードバックに基づいて Suphx は迅速に戦略を更新できます。

リンク

AI

Posted by