2010-01-01から1年間の記事一覧

極大部分文字列

Twitter で「極大部分文字列を求めるいいライブラリないかなー」とつぶやいていたら id:tkng さんに esaxx という岡野原さんのライブラリを教えてもらった。esaxx というライブラリ名なのに説明が"stxx is ..."で始まったり、説明がところどころおかしい*1の…

予備審査

予備審査が終わった。テーマは相変わらず「可変長オーダー Linear-Chain CRF の効率的な計算法」。今回も、一応PDFとスライド、新バージョンのデモをアップロードしておく。PDFスライドデモ(FireFox 専用)アルゴリズムはかなりすっきりした。次は、これを C/…

可変長オーダーCRF

修士論文のテーマである「可変長オーダー Linear-Chain CRF」(以下「可変長CRF」)についてのメモ。まず、自分の考える「可変長CRF」の定義。その前に、Linear-Chain CRF(以下 CRF)について。一般的な CRF では、あらかじめ Markov オーダーを決める。1次…

タガー2

前回(タガー - アスペ日記)の続き。前回の考え方(変形 n-gram)では、学習データに出現する文脈については遠くのラベル情報が利用できるという意味では利点があるのだが、素性情報の利用が難しいという欠点があった。そのため、それを補うことを考える。…

ブラウザ監視

昨日(7/29)、研究室にいる時間の 9割ぐらいをネット閲覧で過ごしてしまった。これはよくない。ということで、対策を考える。例によって、意志を強くするという方向以外で。ネットの見過ぎに関しては、以前「http://d.hatena.ne.jp/lionfan/20080523」に感…

Image::Magick と WSH のメモ

16x16 ドットの画像ファイル(複数)から自動で外字登録(Windows)するというありふれたタスクの中で、いくつか問題点にぶつかったのでメモ。まず、外字は 64x64ドットなので、4倍に拡大する必要がある。Perl でやることにする。そのため、PerlMagick をイン…

一様乱数のソート

「区間[0,M)なるN個の一様乱数を昇順に配列に格納したい.M は十分に大きい.領域計算量O(N),時間計算量O(N)でこれを行う方法を考えよ.」という問題について、バケットソートを使って Python で書いてみた。比較回数(適当だから間違ってるかも)は、1000…

FSNLP7章のEMが怪しい件

FSNLP(Foundations of Statistical Natural Language Processing)は自然言語処理業界の中では知らない人はないというほど有名な本(英語)。出版年度は古く、内容もかなり時代遅れになってきつつあるのだが、自然言語処理の広い範囲を網羅した本ということで…

タガー

今考えていること。タスクは「品詞タグ付け」(英語等、分かち書きのされる言語の場合)または「形態素解析」(中国語・日本語等の場合)(以下、「形態素解析」で統一)。これらのタスク自体時代遅れという意見もあるだろうけど、工学としての自然言語処理…

早寝

ぼくはこれまで、何度も早寝の習慣をつけようと試みてきたが、成功したためしがない。 それで、昨日の夜はこの状況を打破すべく、そのための方法を考えてみた。思いついたのは、"Twitter で、毎日自動的に「『これから寝る』と書きこむ宣言」をする" という…

好きな場所で Visual Studio コマンドプロンプトを開く

タイトル通り。 環境は Visual Studio 2008 Professional。元々スタートメニューにある Microsoft Visual Studio 2008→Visual Studio Tools→Visual Studio 2008 コマンド プロンプト これを右クリックして場所を調べる。 その場所にある "vcvarsall.bat" を…

protoize.pl

最近、事情があって古い C のソースを利用することがあったのだが、関数定義が K&R 式(宣言部は #ifdef で分岐)。 定義に関しては、今の C コンパイラでも K&R 式で通るから K&R 式で統一するというやり方だろう。 しかし、これでは C++ コンパイラは通ら…

作成

とりあえず作ってみた。 mixi のほうで毎日書いている日記の中から日常の些事を除いた部分をこちらにも貼ることを考え中。 あまり更新されなさそうな予感。