@Simeji_jp の日本語がひどい件

日本語入力システム Simeji(公式アカウント:@Simeji_jp)について、Social IME 連携によって「変換候補に自分のアカウント名が出る」という問題が報告され、プチ炎上していたもよう。それに関して、@Simeji_jpから次のようなアナウンスがあった。 @trankie…

「訊く」補足

前回の記事の簡易版、兼補足、兼回答です*1。 まず、タイトルから「『訊く』って間違ってるの?」と思った人に。あれはインパクト重視でつけた短いタイトルなので、誤解があったら申し訳ありません。本文に書いた通り、「『聞く』と『訊く』は使い分けるのが…

なぜ広まった? 「『訊く』が正しい」という迷信

タイトルはパクリ。 二つの疑問 タイトルを読んだ人の反応は、主に次の二つに分かれる*1だろう。 「訊く」が正しいなんて思っている人がいるの? 「たずねる」という意味では「訊く」が正しいんじゃないの? まず、「訊く」が正しいなんて思っている人がいる…

CRF の前向き・後ろ向きアルゴリズム

今回は、CRF の前向き・後ろ向きアルゴリズムについて。可変次数 CRF のアルゴリズムとの対比のために書いておく。 前向き・後ろ向きアルゴリズムは、1 次の CRF で使われる*1。高次に応用する方法も考えられないこともないが、計算量が次数に対して指数的に…

可変次数 CRF のアルゴリズム(合計・差分アルゴリズム)

今回は、可変次数 CRF の計算方法についての解説。これはぼくの研究で、2年前に修論にして、国内の言語処理学会にも出したのだが、一人で国際学会に出せるような論文にするまでのモチベーションが湧かず、そのままになっている。一緒に考えてくれる人を募集…

CRF について(可変次数 CRF への前振り)

最大エントロピーモデルの続き。今回は、CRF(Conditional Random Fields, 条件付き確率場とも) 一般*1について。前向き・後ろ向きアルゴリズムについては書かない。また、一般に関連が深いとされる MEMM というものについても、ここでは触れない。 CRF と…

最大エントロピーモデルについて(CRF への前振り)

table.list{ line-height:1.33em; border-collapse:collapse; table-layout:fixed; width:480pt; } table.list td{ margin:0px; padding:5px; background-color:#FFFFFF; border:1px solid #42B4ED; text-align: right; } .list td.ttl{ padding:5px; backgr…

動詞の派生形

動詞の派生形を列挙したファイルを作りました。https://github.com/hiroshi-manabe/Japanese_verb_derivation独立したもの(減る:減らす 等)と複合語(すり減る:すり減らす 等)は別ファイルにしています。何かに使えるのかどうかはわかりません。強いて言…

地味すぎて気づかれにくい日本語の変化

日本語の変化というと、「的を得る」とか人気ですよね。「的を射る」が正しい!とドヤ顔して、ちょっとした満足感を得るのにお手軽です。 しかし、日本語の変化というのは意外と地味なところで起きていたりします。いくつか書いてみます。 1. 「す」から「せ…

日本語の用言リストを作りました

日本語の用言リストを作りました。https://github.com/hiroshi-manabe/japanese_verb_adj_list書くべきことはだいたいこちらの README に書いてありますが、少しだけ補足を。 このリストは既存の辞書やコーパス等をベースにしていますが、特に新語・俗語につ…

論文ネタについて

可変次数 CRF というものについて修士論文で書いて、言語処理学会(NLP2011)でも発表したんだけど、これは出したら通る発表会みたいなもので、あまり意味がない。で、この可変次数 CRF なんだけど、自分ではいいアイデアだと思っている。普通の CRF では 1…

ビット逆転テーブルの作り方

超小ネタ。ウェーブレット行列の C++ 版を書いた時にビット逆転(上位から下位のビットの並びを逆にする)テーブルを作る必要があったので、その時にちょっと工夫したこと。どっかでとっくに既出かも。状況としては、0 から 255 まで(8ビット)とか、0 から…

身の振り方を考えるついでに、日本語について考えた

Google を辞めてから、頭を冷やすためにゆっくり休んで、その間にいろいろ考えた。辞めた時に勢いで書いた記事には「IME の会社を受けてみたい」と書いたけれど、それでいいのか確信もなかった。だって、IME の会社というと、某国産 IME *1を作っている*2徳…

実例に見る実用文のスタイル

印刷の日本語は、非常に質が高い。編集者や校正者によってチェックされているからだ。それに対して、ネットの日本語は質がバラバラだ。書くことのプロでない一般人が日本語を書くので、どうしてもそうなってしまう。かといって、お金をもらうわけでもない文…

「聞く」と「訊く」の使い分け

まず最初に。「聞く」と「訊く」の使い分けは、「意味によるもの」ではありません。 こう言うと、若い人の中にはえぇっ? と思う人もいるかもしれません。質問するのが「訊く」で、音楽を鑑賞するのが「聴く*1」で、それ以外が「聞く」じゃないの? と。それ…

ウェーブレット行列による wat-array クローン

ウェーブレット行列を使って、wat-array のクローン(List*Range() を除く)を作ってみました。GitHub リポジトリ: https://github.com/hiroshi-manabe/wavelet-matrix-cppテストは動かない状態です。 wat-array に含まれていた performance_test.cpp を利用…

ウェーブレット行列で、先頭からの検索を速くする

(注:今回の内容は元論文に書いてあったわけではないので独自研究気味です)前々回と前回で、ウェーブレット行列を使ったアルゴリズムを二つ紹介しました。二つとも、ある配列に対して開始位置と終了位置を指定した範囲についての操作です。RankLessThan(),…

ウェーブレット行列による QuantileRange()

前回に引き続き、ウェーブレット行列を使った検索について書きます。今回も、2進数やビット操作に慣れている人には冗長に感じられるかもしれません。今回は、「配列のある範囲の中にある数字で、n番目に小さい数字を返す」という関数です。これは少しわかり…

ウェーブレット行列による RankLessThan()

前回、ウェーブレット木にできることはウェーブレット行列にもできると書きましたが、今回と次回に分けて、ウェーブレット行列を使って2種類の関数を実行する方法を書いてみます。細かく手順を追うため、2進数やビット操作に慣れている人には冗長に感じられ…

ウェーブレット木でできることはウェーブレット行列でもできる

ウェーブレット行列のテスト実装に、rank(), select() の他、wat-array で実装されているものをだいたい追加しました。ウェーブレット木でできることは、ウェーブレット行列でも同じようにできる(元論文の最後にちゃんとそう書いてある)ということが確認で…

Wavelet Matrix のテスト実装

えちぜんさんによる Wavelet Matrixの紹介記事を読んで、これはすごいと感銘を受けたので、試しに Python で実装してみた。https://github.com/hiroshi-manabe/wavelet-matrix(追記: wat-array を元にした C++版 https://github.com/hiroshi-manabe/wavelet…

半年で(メジャーな)第二外国語を身につける方法

英語学習エントリに触発されて、第二外国語学習エントリを書いてみようと思います。英語とその他の外国語で、学習方法が本質的に違うということはもちろんないのですが、中高 6年間にわたって学校で勉強する英語と、基礎がほとんどない状態から始める第二外…

N-gram かな漢字・漢字かな変換(C++版)

作った。リポジトリはこちら。https://github.com/hiroshi-manabe/ngram-converter-cpp 以前、N-gram 漢字-かな変換という記事で、N-gram を使ったかな漢字・漢字かな変換を公開した。内部で使用しているアルゴリズムについては、可変次数 N-gram デコードの…

送別会、あるいはその不存在について

たまには、日記のタイトルにふさわしい記事を書いてみようと思う。 送別会というものは、特に好きでも嫌いでもない。呼ばれたら行く。呼ばれなかったら行かない。その意義というものを、よくわかっているとは言いがたい。歓迎会はまだわかりやすい。職場の場…

べき分布する整数データの圧縮方法

今更ながら、Faster and Smaller N-Gram Language Modelsを読んでみました。この記事については、すでにACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei やN-gram 言語モデルを圧縮するには - やた@はてな日記で紹介…

修飾キー省略入力について

iOS の日本語フリック入力などで実装されている「修飾キー省略入力」という機能について書きます。次の記事に解説されています。 http://blog.pasonatech.co.jp/ohashi/16439.html 「しゆうてん」と入力すると、「充電」「終電」「重点」「終点」という候補…

収支報告

しません。

日本語入力について

私が日本語入力について思っていることを書いてみる。 自分としては、デフォルト以外の日本語入力システムとして、ATOK と Google 日本語入力ぐらい(まあ、Baidu IME とかもあるが)しかないのが心の底から残念でたまらない。 雑誌の特集などで、Google 日…

Google 辞めました

Google辞めました。最終出社日は 5月11日。5月31日まで有給消化。その後は無職。転職先が決まっていて有給消化している「なんちゃって無職」ではなく、ガチ無職。とりあえずハロワでも行こうと思う。 まず初めに。この記事は、Twitter で @takeda25 をフォロ…

@AntiBayes さんとのやりとりについて

先週、私と @AntiBayes さんとの間にかなり激しい応酬があった。NLP 業界で 私と @AntiBayes さんの二人をフォローしている人たちにはそれが見えたと思う。また、その影響は今後も残るかもしれない(残らなければそれに越したことはないが、私はあまり楽観し…