2011-07-01から1ヶ月間の記事一覧

雑感3

この数日間は、イベント等があって趣味のプログラミングはしていない。 前々回、 前回 とネガティブな日記を書いた。考えを論文にして、アルゴリズムに関するものであっても実験で性能を出して国際学会で採択されるなどしないと、アルゴリズムの内容も読んで…

雑感2

今日も引き続き、ソウルジェムの穢れをまき散らすような日記を書いてみる。 なぜ論文を書きたくないか。 それは、「そりゃこれは書かないとだめだよね」と納得できる以上のことを書かないといけないからだ。 まず、先行研究。 修士のころ、論文を書いていて…

雑感

N-gram かな漢字変換 をアップデート。 内部の Unicode 化、未知の文字への対応。 これまでは未知の文字があると結果を返さなかったので、特に漢字かな変換では致命的だったが、今回の変更で大丈夫になったかもしれない。 まだ漢字かなでは試してないけど。 …

N-gram かな漢字変換(3)

リポジトリを更新した。N-gram ID から スコアを取得するのに cdb を使っていたのをメモリマップトファイルに変えた。 さらにスコアは 1バイトで持つようにした。 400MB ぐらいだったサイズが 20MB ぐらいになって、速度もだいぶ向上した。合計すると、辞書…

N-gram かな漢字変換:続き

昨日(記事を)書いた N-gram かな漢字(&漢字かな)変換について。 プログラムを書いたのはこの一週間ぐらい。 先週は仕事が終わってからマクドナルドで書いて、連休中は家でも書いていた。N-gram の N は、最初は 3 で十分かと思って、それで試した。 "Tr…

N-gram 漢字-かな変換

@gologo13さんの言語モデル配布ページのデータを利用して簡単な漢字->かな/かな->漢字変換ができないかなーと思って作ってみた。言語モデルの作成には SRILMを使用。配布中のデータを SRILM で扱うには多少加工しないといけないので、その変換スクリプトも作…

.gdbinit を公開してみる

タイトルのまま。自分はずっと Windows で開発してきたので、C++ は Visual Studio(VS) でやっていた。 VS のいいところは、デバッグ機能。 条件付きブレークポイントやメモリ変更時のブレークといったことをしても爆速で動いてくれてきちんと止まってくれる…