N-gram かな漢字変換(3)
リポジトリを更新した。
N-gram ID から スコアを取得するのに cdb を使っていたのをメモリマップトファイルに変えた。
さらにスコアは 1バイトで持つようにした。
400MB ぐらいだったサイズが 20MB ぐらいになって、速度もだいぶ向上した。
合計すると、辞書のサイズは 60MB ぐらい。
まだそれなりに大きい。
4-gram のかな漢字変換用辞書をあらかじめリポジトリに入れておくようにした。
marisa-trie モジュールさえ入れてあれば、
./converter_sample.py --dicname-prefix=dics/bccwj4_rev_dic --order=4 --interactive
ですぐにかな漢字変換が実行できる。
だいぶ手軽になったはず。
作成済み辞書を置くのに問題はないかな?
まずかったら削除します。
ついでに、Google日本語入力APIでAjax IME を参考に、さくらの VPS に工藤さん作成の Ajax IME を利用した変換テキストボックスを置いてみた。
http://vocrf.net/test/ime.html
候補が選択できないのであまり実用的ではないけど。