Microsoftの麻雀AI Suphxが天鳳10段を達成

2019/08/31AI

Microsoftの麻雀AI Suphx が天鳳10段を達成したことが話題になっています。リリース文によると、東京大学の「爆打」・ドワンゴの「NAGA25」に比べても強いAIに仕上がっている模様。

麻雀 AI Microsoft Suphx が人間のトッププレイヤーに匹敵する成績を達成 – News Center Japan

【麻雀 #AI「Microsoft Suphx」が人間のトッププレイヤーに匹敵する成績を達成】
マイクロソフトリサーチアジアが開発した麻雀 AI が人間最強レベルのプレイヤーに匹敵する成績を達成。今回の成果は推論と意思決定レベルの向上により、金融投資など複雑応用が期待されます。https://t.co/ZB837hwnH2 pic.twitter.com/0zNKpivzaX

— 日本マイクロソフト株式会社 (@mskkpr) August 29, 2019

#Microsoft announces that it has developed the world’s most powerful #AI system for #Mahjong so far. This system called #Suphx has reached Level 10 and has played against human contestants 5000+ times, demonstrating remarkable thinking skills. #WAIC2019 https://t.co/PNkun44Pcg pic.twitter.com/j44ZoMBpVZ

— The Paper (@thepapercn) August 29, 2019

麻雀AIの学習について

今回の麻雀AIについて、Microsoftはこう書いている。

巨大な状態空間: 52 枚のカードしか扱わないテキサスポーカーと比較して、麻雀の牌は 136 個あり、その場合分けには明らかに巨大な状態空間を必要とします。そして、麻雀では、4 人のプレイヤーの順番は固定されていません。誰かが「鳴く」ことにより、自摸（ツモ: 牌を一枚取得する）の順番が突然変わります。また、他の 3 人のプレイヤーの配牌や自摸により、状況は大きく変化します。これらの特性により、麻雀では、AlphaGo などのボードゲームで一般的に使用されているモンテカルロ木探索を直接使用することができません。

麻雀 AI Microsoft Suphx が人間のトッププレイヤーに匹敵する成績を達成 – News Center Japan

「モンテカルロ木探索を直接使用することができません」とあるのは、既存の「爆打」の論文でも書かれている。

モンテカルロの手を用いることは序盤であっても可能であるが，和了まで時間がかかるため，精度の高い手を選択することは難しい.そのため序盤は一人麻雀の手を用いる.一人麻雀の手からモンテカルロの手に切り替えには以下の条件のいずれかを満たしたときである.

誰かがリーチをかけた時

ツモが可能な牌の数が 16 枚以下

Σ_{p∈opponents} EL(p,Tile) foldvalue≦ 0.2

期待最終順位の推定に基づくコンピュータ麻雀プレイヤの構築（PDF）

興味深い戦略としては、隠れた情報をすべて知っている状態で選択の成否を判断していることが上げられる。これ、ぶっちゃけて言えば、神の視点を教師として学習しているようなものですよね。この方向を突き詰めていけば、次のツモを予測して「御無礼」とか言ったりできるのでしょうか（無理）。

次に、「不完全情報ゲーム」の課題に対応するために、Suphx のモデルは、自己対戦戦略を取り入れています。「不完全情報ゲーム」では、何が最適な選択かを判断するのは困難です。自己対戦においては、対戦相手の手牌や山の中の牌などの隠れた情報をすべて知っていると仮定したもとで、Suphx の選択が適切であるかを判断します。このフィードバックに基づいて Suphx は迅速に戦略を更新できます。

麻雀 AI Microsoft Suphx が人間のトッププレイヤーに匹敵する成績を達成 – News Center Japan