ひよこKKP計画の失敗

まだ失敗だと確定したわけではありませんが、初代BonanzaKKP相当で当時のノーパソでR2400だと仮定します。

KKPテーブルを自力で棋譜からの学習に頼らずに作ることにより、初代Bonanzaより精度のいいKKPテーブルが出来る→ +R100
・初代Bonanzaよりnpsが2倍ぐらい出ている。→ +R100
・初代Bonanzaより探索性能が上。→ +R50
・初代Bonanzaのころよりマシンスペックが上。→ +R100

こう考えるとうまくすれば +R300ぐらいになるはずで、R2700ぐらいにならないとおかしいのです。まあそれでもまだツツカナやponanzaには及びませんが…。

それなのにzattai-bonanza、弱すぎます。R2185。R2700にはほど遠いです。KKPテーブルがきちんと持ってこれていないのだと思いますが、それだけじゃない気がします。

私がKPP(Bonanzaのような3駒評価)がしたくないのは、KPPは大変重く、これをしてしまうとそこが支配的になってしまい、いませっかく高速化によってnpsで圧倒的に勝っているのに、そのアドバンテージが吹き飛んでしまうからです。

無論、そのようなアドバンテージをすべて吹き飛ばした上で、探索性能のさらなる改善によって(StockFishとかFruitのソースを参考にしながら)ソフトを改良していく道もあるでしょう。ponanzaはそういう開発方針なのだと思いますが。

また3駒評価でも高速化とクラスター化によってさらに強くしていく道もあります。よくは知りませんが、ボンクラーズがそういう開発方針なのだと思います。

あるいはfv.binを学習部の改善によりいまより強いfv.binにしようという方針もあります。これは芝浦将棋の作者が取り組んでおられました。

評価関数自体をBonanza系からは離れ、全く独自に設計するところから始める方法もあります。GPS将棋、Blunder、激指、習甦、YSS、etc…。これは茨の道です。棋譜からの学習はTAT(ターンアラウンドタイム)が長く、しかも成果が出ないことも多々あるからです。

私はTATが長くなるのは苦手で、あと、明確な基準が得られないのも嫌です。

具体的に言いますと、今回のように駒得のみの評価関数でR2000になることがわかっていれば、評価関数を改善してR2000より落ちた場合、その評価関数は処理の重さに見合うだけの成果を出していないことが明確になるからです。

そう考えた場合、あちらこちらに手をつけて何が原因で弱くなっているのかが特定できないような状態を作り出すのはよろしくないです。

今週の予定としては
・df-pnによる詰将棋ルーチンの作成
KKP棋譜から学習させてみて、floodgateでどれだけの点数がつくのかを見る

df-pnは弱くなるなら使わなければいいだけなので、これは気が楽です。df-pnのクラスター化なんかも夢ひろがりんぐで、また、詰将棋の市販ソフト(よく知りませんが…)のように長手数の詰将棋が解けるのかと思うと、興奮して夜も眠れません。

df-pnが終わればオーソドックスに棋譜からの学習に手をつけて、KKPを学習させるところからやってみます。

棋譜からの学習と比較してこれだけ強くなったという形で成果を示しませんと、本当に棋譜からの学習より優れているのかわかりませんしね。あとBonanza6からKKPの値をきちんと抜き出せていない疑惑があるので、そのへんも立証しませんと。

あとKKPだけでどこまで強くなるのかというのも示しておく必要があると思っています。

例えば、KKPだけでR2400までは行けるというのがわかっていれば、次に評価関数を改善していくときの目安になります。