日本語の用言リストを作りました

日本語の用言リストを作りました。

https://github.com/hiroshi-manabe/japanese_verb_adj_list

書くべきことはだいたいこちらの README に書いてありますが、少しだけ補足を。

  • このリストは既存の辞書やコーパス等をベースにしていますが、特に新語・俗語については、これまでの職場で働く中で自然と知識として蓄積されたものもあります。しかし、それらは語彙として自分の中で確固たる位置を占めており、その知識を使うことに倫理的な問題はないと判断しました。
  • 用言リストを作るのに人間なんていらないよ、時代は機械だよ、という意見もあるかもしれませんが、現状で多くの IME は固定した辞書を持っており、また私自身もそのような IME を使いやすいと感じているため、作る過程では補助的にスクリプト等を用いても、最終的な判断は人間が行うのがよいと考えています。ですが、仮に自動的に作ったリストで、これよりも人間にとって便利であるようなものができるのであれば、この立場を捨てることにやぶさかではありません。

雑感。

BCCWJ という大規模なコーパスができたので、これとN-gram かな漢字変換を合わせれば、それほどの人手をかけずにまともな IME が作れるかと思ったけれど、BCCWJ は IME 用のコーパスとしてはあまりにも向いていない(人間の感覚ではひとつのものであるところがバラバラになっていたり、その逆のものが非常に多い)ため、まずは人間の感覚でひとつの用言であるものをリストアップしようとしたら、それだけで相当な時間がかかってしまい、心が折れかけているところ。