2011-08-01から1ヶ月間の記事一覧

日本語の自然言語処理には Perl も便利

小ネタ。Perl で日本語の簡単な処理をするやり方(こういうことが簡単にできるという例で、具体的なオプションの意味等は解説していない)。コマンドラインでちゃちゃっと日本語の処理をしたい時、Perl はけっこう役に立つ。日本語の一文字を一文字として扱…

電車内でシャドウイングする方法

語学を勉強する時、シャドウイング(音声を聞きながら、それに合わせてしゃべること)という方法がある。リピーティング(音声を聞いて、終わってから内容を繰り返す)、朗読といったものもあるが、いずれにせよ自分で発声することが欠かせない。電車での通…

コーパスと実用のサイクル (2)

昨日のエントリ(コーパスと実用のサイクル - アスペ日記)の続き。 「コーパスを使って漢字かな・かな漢字変換を作り、その間違いをコーパスに反映する」というのを具体的にどうするか。自分としては、せっかく現代日本語書き言葉均衡コーパス (BCCWJ)がで…

コーパスと実用のサイクル

他人にはどうでもいいことだが、ぼくは毎日 1時間、自分のための時間(娯楽以外なので、読書と語学は除く)を設けている。数学の勉強・プログラミング・ブログエントリ作成等に主に使っている。 生きる上でワークライフバランスが重要なように、考える・やる…

良い IME に必要なもの 3つ

日本語のかな漢字変換に必要なもののうち、主要なものを 3つ挙げてみる(細かく言えば、必要なものはもっとずっといっぱいある)。 1. N-gram 言語モデル 直接つながる前後の文脈によって曖昧性を解消する。これが基本。「おもってはいる」が「思って-入る」…

ワイン問題詳しく

http://d.hatena.ne.jp/nokuno/20110802/1312236781で紹介されている@http://twitter.com/neubig さんの問題について、id:nokuno さんの解説に加え、具体的な答えを書いてみる。 問題を改めて引用。 貴重なワインの瓶27本を持っていて、その内1本は毒で汚染…

可変次数 N-gram デコードのアルゴリズム

前に書いた N-gram 漢字-かな変換 - アスペ日記 のアルゴリズムについて。 かなり縦に長いエントリになると思う。途中までは一般的な日本語自然言語処理にかかわること。 例として、「かれがくるまでまつ」というひらがなの文をデコードして、対応する漢字か…