ニューラルかな漢字変換の細かいツッコみどころ

ニューラルかな漢字変換という記事へのツッコミです。

いや、ニューラル部分はいいんですよ。

ぼくはやってないから。


ツッコみどころは、ごく細かいところです。

注釈の、「かな漢字変換はN=3以上にしても精度が上がらないことが実験により確かめられています。詳しくはの論文(リンク)を参照ください。(ドヤァ 」という箇所です。


それ、BCCWJのコアデータだけ使った場合ですよね。


ぼくは以前、N-gram かな漢字変換を作って公開したことがあります。

これは、京都大学で公開している言語モデル配布ページの、BCCWJ全体を使ったものです。

実装はhttps://github.com/hiroshi-manabe/ngram-converter-cppにあります。


http://vocrf.net/test/ime.htmlで、4-gram かな漢字変換をテストできます。

(PCで、PCのIMEを切って、IME On/Off ボタンを押します)

これでやったら、例えば「今日の天気は」等は変換できます。

(ちなみに、例えば「てんきがおとずれた」はちゃんと「転機が訪れた」になります。)


まあ、ぼくのやつはテストデータと訓練データを分離したちゃんとした実験をしていないので、うまくいって当たり前と思われるかもしれません。

でも、BCCWJコーパス全体の中に「今日の天気」は47件もあるので、訓練データとテストデータを分けたとしても、偏りなく分ければ訓練データにも多数含まれることになります。

(ところで、言語モデル配布ページのkkc-BCCWJ.tarの中の3-gram.fwkを見ると「2 今日/きょう の/の 天気/てんき」となっていて、3-gram が2個しかないことになっているんですよね。少納言などで調べると47件あるのに。どうしてこうなっているんでしょうか?)


いや、ぼくのやつはちゃんと論文にしてないし、これがどこかの知らない人なら、「お前の 4-gram 変換なんて知らん」と言われたらそれまでなんですけどね。

不思議なのは、yoh_okuno さんは昔Ngramかな漢字変換とMozc辞書の比較(現在はプライベートモード)という記事を書いて、(ぼくがサボってた)精度の検証をしてくれているということです。

そのときに、変換結果を見ていたら、2-gram じゃできないような変換(元記事で書かれているようなもの)が 4-gram でできているということに気づいて、「かな漢字変換はN=3以上にしても精度が上がらない」ということが一般的には言えないとわかってもいいはずだと思うんですよね。


まあ、今回の記事のやつはコアデータだけ使っているということで、それでニューラルでうまくいっているのはほんとすごいとは思うんですけど。

単純に、不思議だなぁという話でした。