駒得+αでmctsを超えた日

floodgateに投入したひよこカルロ将棋neo v1.18が予想以上に高いレーティングがついています。そのうち下がるのかも知れませんし、天敵であるFireflyなどがオンラインではないのでその影響もあるのかと思います。(逆に週刊ひよこ将棋創刊号は思ったより伸びなくてがっくりきてますが…)

現在R2042。あのmctsを超えました。mctsと言えばGPSチームの人が作ったモンテカルロ木探索を使った将棋ソフトです。playoutするときにGPSの評価関数を呼び出しているという部分が少しずるい気もしないでもありませんが、ともかく現状、最も成功しているモンテカルロ木探索を使った将棋ソフトです。

その将棋ソフトがまさか駒得+αの将棋ソフトと同じレベルであったとは誰が想像したでしょうか。

少なくとも私は想像もしていませんでした。R2026と言えば、アマチュア三段か四段レベルぐらいでしょうから、もっと雲の上の存在かと思っていました。それがまさか駒得だけの評価関数で到達できる範囲であったとは…。

もちろん、モンテカルロ木探索のほうはまだまだ伸びしろがあるのだとは思います。

しかしGPSの評価関数を一部使用しているわりにはちょっと残念な結果です。GPS将棋の指し手生成はC++ templateで書かれているので、ひよこカルロ将棋neoに比べてそれほど遅いわけでもないでしょうし、GPS開発チームの人ですから、コンピューター将棋を作ることにかけては日本屈指の開発者なのでしょうし、結局のところ、モンテカルロ木探索で成果を上げるのはいかに大変かということがよくわかります。

コンピューター将棋でモンテカルロ木探索に取り組んだ人は、少しやると100回程度のplayoutが静止探索1回分程度に相当する(かも知れない)ことに気づきます。100回のplayoutに要するコストは静止探索1回の数千倍ぐらいかかるので、これで釣り合うはずはありません。釣り合わないところをいかに改善していくかという問題になります。

モンテカルロ木探索を用いたコンピューター将棋を作る過程でいろんな知見が得られますし、モンテカルロ木探索を使った将棋ソフトは指し方も独特で、これはこれで有意義な研究だと私は思うのですが、実際に強くするのは大変です。

ゆえに、少し研究してやめてしまう人が後を絶たないのは、そういう事情なのかなぁと想像します。私は少し研究どころか3日ぐらいでやめてしまいましたが。

ともかく、モンテカルロ木探索型コンピューター将棋プログラムがfloodgateに登場するのをひよこカルロ将棋neoは心からお待ちしております。