べき分布する整数データの圧縮方法

今更ながら、Faster and Smaller N-Gram Language Modelsを読んでみました。

この記事については、すでにACL2011論文「Faster and Smaller N-Gram Language Models」を読んだ - EchizenBlog-Zwei やN-gram 言語モデルを圧縮するには - やた＠はてな日記で紹介されているので、自分が興味を持ったところを少しだけ。

上の紹介記事でも言及されているように、この論文では N-gram を [token, context] の形で格納しています。token と context はどちらも ID。この形でソートすると、token も context も前のデータとの差が小さくなるので、差分を取ると小さい数が多い「べき分布」になるから圧縮しやすくていいよね、という話（だと思います）。

その圧縮方法というのは次の通りです。

ある k を決め、基数を 2^k とする。
(対象の数字をその基数で表した時の桁数-1) だけ 0 を置き、続けて 1個の 1 を置く。
(対象の数字をその基数で表した時の桁数*k) ビットを使って、対象の数字を 2進数で表す。

これってちょっとピンと来ないと思いませんか？私は最初ピンと来ませんでした。なので、自分でいくつか例を作ってみました。

まず k=3 で基数が 2^3=8 の場合。

対象の数字が 6 の場合、8進数で表すと 6 で、桁数は 1。
1-1=0個の 0 を置き（=置かない）、1個の 1 を置く。
3ビットを使って対象の数字 (6) を 2進数で表すと 110。
合わせて 1 110 になる。

13 の場合、8進数で表すと 15 で、桁数は 2。
2-1=1個の 0 を置き、1個の 1 を置く。
3×2=6ビットを使って対象の数字 (13、8進数で 15) を 2進数で表すと 001101。
合わせて 01 001101 になる。

93 の場合、8進数で表すと 135 で、桁数は 3。
3-1=2個の 0 を置き、1個の 1 を置く。
3*3=9ビットを使って対象の数字(93、8進数で 135) を 2進数で表すと 001011101。
合わせて 001 001011101 になる。

この表現方法では、ビット列には「桁数部」と「数字部」があります。「桁数部」は、その基数で表した時の桁数-1 の 0 と 1個の 1。「数字部」は 2進数で表した数字、ただし k の倍数になるように上の桁に 0 をパディングしたもの。

k を小さくすると桁数部が増え、その代わりに数字部のパディングが減ります。大きくするとその逆になります。k をいくつにするのがいいかはデータによりますが、小さいところに固まっているほど小さめの k が、大きい数まで分布しているほど大きめの k がいい結果になります。

たとえば、上の例で k=4 としてみます。基数は 16 になります。

6 の場合、16進数で表すと 6 で、桁数は 1。
1-1=0個の 0 を置き（=置かない）、1個の 1 を置く。
4ビットを使って対象の数字 (6) を 2進数で表すと 0110。
合わせて 1 0110 になる。

13 の場合、16進数で表すと d で、桁数は 1。
1-1=0個の 0 を置き（=置かない）、1個の 1 を置く。
4ビットを使って対象の数字 (13、16進数で d) を 2進数で表すと 1101。
合わせて 1 1101 になる。

93 の場合、16進数で表すと 5d で、桁数は 2。
2-1=1個の 0 を置き、1個の 1 を置く。
4*2=8ビットを使って対象の数字(93、16進数で 5d) を 2進数で表すと 01011101。
合わせて 01 01011101 になる。

k=3 で 6, 13, 93 を表した時はそれぞれ 4, 8, 12 ビットだったのに対し、k=4 にすると5, 5, 10 ビットになっています。このように、k を変えると数字によってビット数が増えたり減ったりします。

数字ごとに必要なビット数は、(対象の数字をその基数で表した時の桁数)×(1+k) になります。k=3 の時にはビット数が 4の倍数で、k=4 の時には 5の倍数になっているのがわかると思います。

どのぐらいの k が最適かを調べるための Perl ワンライナーを書いてみました。

perl -F/\\t/ -nale 'BEGIN{$max_k=15;} $b=sprintf("%b", $F[0]); $blen=length($b); for $k(1..$max_k) { $digits=int(($blen-1)/$k)+1; $bits=$digits*(1+$k); $bits_all[$k]+=($bits*$F[1]); }  END{ print "k\tbits"; print "$_\t$bits_all[$_]" for 1..$max_k; }' < input.txt > output.txt

入力は、

のような、数字とその出現回数をタブ区切りで並べたものです。

出力は、

k	bits
1	128217222
2	104358054
3	100212788
4	100983695
5	104240334
6	107949016
7	113001552
8	118689750
9	124995330
10	131009912
11	136483572
12	141806821
13	147092792
14	153086880
15	159444240

のように、それぞれの k を使った場合に必要となるビット数です。

このデータの場合、k=3 が最適だということです。

ここからは論文の内容から離れますが、これを実際に使うことを考えるなら、実装の楽さということも一つの要素になるでしょう。この方法では k=7 の時にデータがバイト単位になるため、処理が非常に簡単になります。対象となる数の上限が決まっているなら、決め打ちができるため、さらに簡単に書けます。ここで挙げた例のような場合では、最適な k=3 の場合と k=7 の場合の差が 1.13倍程度と大きくないため、考える余地があるでしょう。

たとえば、k=7 として、数の上限が 2^21-1=2097151 以下の場合は、次のように書けます。

int Encode(int x, unsigned char *p) {
  int len = 0;
  if (x < (1 << 7)) {
    p[0] = (1 << 7) | x;
    len = 1;
  } else if (x < (1 << 14)) {
    p[0] = (1 << 6) | (x >> 8);
    p[1] = x;
    len = 2;
  } else if (x < (1 << 21)) {
    p[0] = (1 << 5) | (x >> 16);
    p[1] = x >> 8;
    p[2] = x;
    len = 3;
  }
  return len;
}

int Decode(int *x, unsigned char *p) {  
  int len = 0;
  if (p[0] & (1 << 7)) {
    *x = p[0] & ((1 << 7) - 1);
    len = 1;
  } else if (p[0] & (1 << 6)) {
    *x = ((p[0] & ((1 << 6) - 1)) << 8) | p[1];
    len = 2;
  } else if (p[0] & (1 << 5)) {
    *x = ((p[0] & ((1 << 5) - 1)) << 16) | (p[1] << 8) | p[2];
    len = 3;
  }
  return len;
}

UTF-8 のエンコード・デコードに似ていますが、最初のバイトかどうかという情報を持たなくてもよいため、UTF-8 よりは効率的です。UTF-8では 127 まで 1バイト、2047 まで 2バイト、65535 まで 3バイトなのに対し、k=7 のこの方式では 127まで 1バイト、16383 まで 2バイト、2097151 まで 3バイトで表せることになります。