コーパスと実用のサイクル

他人にはどうでもいいことだが、ぼくは毎日 1時間、自分のための時間(娯楽以外なので、読書と語学は除く)を設けている。数学の勉強・プログラミング・ブログエントリ作成等に主に使っている。


生きる上でワークライフバランスが重要なように、考える・やるバランスとでもいうようなものも重要だというのがぼくの考え。そういうわけで、今日はとりとめもなく思ったことを書きつつ、考えをできるだけまとめることを目指す。


最近、人生がうまくいっていない感がある。まあずっとだけど、最近特に。やっぱり、やりたいことができていないというのが原因だろう。


やりたいことというのは、自分の場合は漢字かな(音声)変換・かな(音声)漢字変換の精度を上げること。


そのための手段として自分が信じるやり方は、精度の高いタグ付きコーパスをある程度整え、それによって運用できる実用的な変換システムを作り、そのフィードバックによってコーパスを修正・追加するというもの。


前に、良い IME に必要なもの 3つ - アスペ日記というエントリを書いたが、良い漢字かな変換に必要なものは一つ少ない 2つになる。2.の「共起情報」はそれほど必要がない。まず、かなから漢字に変換する時の曖昧性に比べると、漢字からかなの場合のそれは非常に少ない。その曖昧性を 2つに分けてみる。1つ目が「明日(あす/あした)」のような、どちらでもいいもの。2つ目が「大人気(だいにんき・おとなげ)」のような、意味の異なるもの。2つ目の曖昧性であっても、たいていの場合は前後を少し見るだけで曖昧性が解消できる。「子供たちに大人気」「大人気ない行動」といった感じ。共起まで見ないといけないのはごく一部だ。そういうわけで、共起を利用しようと頑張っても、その効果が薄い。


そういうわけで、N-gram + 辞書による漢字かな変換を使えば、その間違いのほとんどはコーパスか辞書のどちらかに原因を求めることができる。だから、実際に使ってもらってフィードバックがもらえたら、それによってコーパスなり辞書なりを修正・追加すればいいということになる。もちろん、かな漢字変換からのフィードバックも利用できる。


ただ現時点では、どうやったらこれが実現できるのか、なかなか考えがまとまらない。実際のところ、漢字かな混じり文からかな文という需要はどれだけあるのだろうか。あるのは、音声または点字への変換じゃないだろうか。しかし、音声ならアクセント情報が重要だし、点字なら単語区切りが重要になる。どちらの場合でも、かな書きそのままでは使えない(例えば、「欧州」であれば「オーシュー」。しかし「牡牛座:○オウシザ×オーシザ」のような例もあるので単純ではない。また、点字は完全な表音表記ではない)。


今後どういうことをしていくのがいいか、また改めて考えよう。