日本語入力について

私が日本語入力について思っていることを書いてみる。


自分としては、デフォルト以外の日本語入力システムとして、ATOKGoogle 日本語入力ぐらい(まあ、Baidu IME とかもあるが)しかないのが心の底から残念でたまらない。


雑誌の特集などで、Google 日本語入力と ATOK に単語や文章を変換させて精度を比較しているものを見かける。まあ総合的には同じぐらいの結果になっている。だが、実際に長い間使っているとわかるのだが、Google 日本語入力の間違え方のほうが「理不尽」なのだ。どうしてこれがこうなる? と思わず言いたくなるような。その点、ATOK は弱い部分が前もってわかる。アニメやゲームなど、マニアックな変換には弱い。しかし、ATOK である程度日本語の文章を打ち慣れた人にとっては、そういう「難しいだろうな」と思うようなところは、打つ前からそのことがわかるものだ。

ATOK を使うのは、優れた秘書に文章を書き取ってもらうようなものだ。普段の日本語は、そのまましゃべっていればだいたい正しく文章にしてくれる。漫画の名前など、普通の人が知らないようなものであれば、一文字ずつ教えてあげればいい。例えば、「外天楼」という漫画がある。これを優秀な秘書に書き取ってもらいたければ、「そと、てんごくのてん、ろうかくのろう」と教えてあげればいいだろう。ATOK の入力も同じことだ。

レポートや仕事のメールといった堅い文章を書く時、99% は普通の日本語だ。ATOK では、そういうところは安心して入力できる。残り 1% だけ、注意して教えてあげればいい。そうすると、文章を打つのにリズムができて、慣れてくると「入力システム」というものの存在すら意識せずに入力ができるようになる。


そういう意味では、ATOK は本当にすばらしい日本語入力システムだ。しかし、不満な点もある。


1つ目は、言語の「正しさ」に関する考え方。私は、本当に言語が好きだ。母語である日本語だけでは飽き足らず、英中韓仏独西露などの外国語にも手を出している(もっとも、ある程度ものになっているのは英中韓ぐらいだが)。それは、言語というシステムの精巧さに触れるのが好きだからだ(言語というシステムの面白さという観点からはもっと面白いマイナー言語もいろいろあるだろうが、教材の手に入りやすさや潰しのききやすさも考えて今の選択になっている)。

言語というものは、人間の一般的な「頭脳」が扱える範囲を超えている。ノーベル賞級の頭脳を持った人材が、英語はかろうじて意思疎通ができる程度という話を聞くことさえある。なぜそうなのか。

脳の中には、「音声としての言語」を扱う専用のモジュールがある。ブローカ野・ウェルニッケ野というもので、それぞれ別の機能を担っているのだが、まとめて「言語中枢」とも呼ばれる。これらのどちらかが損傷すると、知能がどれだけ優れていようと、言語を自然に扱うことができなくなる。パソコンで言うと、通常の知能が CPU で、言語中枢は GPU のようなものだ。GPU が壊れると、いくら優秀な CPU でもその代替はできない。逆に、知能がいくら優れていなくても、言語中枢さえ持っていれば誰でも言語を操れる。例えば、日本語の非ネイティブにとって難しいものの一つに、「が」と「は」の使い分けというものがある(韓国語には似たものがある)。しかし、たとえば学生時代に、頭の悪い同級生が「が」と「は」の使い分けさえうまくできない、という経験をした人はいないはずだ。英語のネイティブが、どこに "the" を置いてどこに "a" を置くかがわかるのと同じことだ。

それなのに、言語を扱うのに不向きな「頭脳」の部分で、生き物である言語を云々する人が、いつの時代にもいる。例えば ATOK では、「お求めやすい」という表現に「お求めになりやすい」が正しい、という警告を出す。こんなに愚かしいことはない。理屈から言えば「お求めになりやすい」が正しいという話だが、「お求めやすい」という言い方が人口に膾炙するようになったのは、言語中枢がその形を受け入れたからだ。ここで、「どうしてこの不規則な形が受け入れられるんだろう?」と好奇心を持つのでなく、「規則的にはこうなるべきだ」と考えるというのは、生物の構造を見て「非合理的だ」と言って、手術をしようとするようなものだ。どの時点のどの言語でも、それがその形であるのには理由がある。表面的な合理性や規則性などで縛れるようなものではない。


2つ目は、ネット上での新語がなかなか入らないこと。これは、昔はそれほどの欠点ではなかった。以前は、ネット用語とリアルの語彙との間には厳然とした境界があった。私は以前は 2ch をよく見ていたが、それによって自分の日本語が受けた影響は大きくなかった。古い「2ch 用語集」のたぐいを見ても、「実社会で使わないように」などと書いてあるのが常だった。

しかし、最近は「リア充」という単語のリアルへの侵食が一例となっているように、言語におけるネットとリアルの境界は曖昧になりつつある。この点は、Twitter のような、リアルタイムで一対多の配信を行うメディアの出現による影響が大きいだろう。

2ch というのはあくまで「掲示板」で、相手は匿名・コテハン(これは 2ch 用語だが)にかかわらず、自分にとっては遠い存在だ。しかし Twitter は違う。一度誰かをフォローすると、ID 付きでその人の発言を見続け、その人の人間像がある程度わかってくる。これはかなりリアルに近い体験だ。そういう人たちが使っている言葉からは、知らず知らずのうちに影響を受ける。例えば、自分は「ポチる」「モフる」という動詞を以前は知らなかったが、Twitter で「速攻ポチった」「猫モフりたい」というのを見るうちに、これらの動詞は自分にとっても「使う語彙」になっていった。2ch ではなかったことだ。

こういうネット由来の単語で、ATOK では変換できないようなものにぶつかると、私のようなネット民は、「基本語が変換できない、情けない」という気持ちになってしまう。


3つ目は、有名な「言葉狩り」だ。「小人(こびと)」が入力できないという例のやつだ。ネット上で、ATOK に対する不満の中でもっとも多いのがこれだろう。これが問題として感じられるのは、一般人にとってそれらの「過去の差別用語」が、リアルな実感を持って差別用語と感じられないからだろう。「小人」という言葉を、小人症の人に対する蔑視の言葉として使ったことがある人がどれくらいいるだろうか。こういった、差別用語としての実態を失っている単語が変換できないと、情けない気持ちになる。

こういった自主規制用語に対しては、ネットで探せば補完する辞書はある。しかし、ユーザー辞書なんていうものは、例えば東方用語のような、「一般的ではないが私はよく使う」といった場合に入れるものだ。誰でも知っている単語を出すためにユーザー辞書を入れるなんて、そんな情けない話はない。秘書のたとえで言うと、「こびと」と書いてもらおうとすると「こびとってなんですか、そんな不適切な単語は知りません」と言われるようなものだ。それが道具としてのあるべき態度なのか。不適切な単語を使いそうになったら注意してほしいと思ってそう言っておけばその通りに注意してくれるというのが、道具としてのあるべき姿じゃないのか。

また、変換エンジンごときに差別を減らしたり増やしたりできると思っているなら、それは思い上がりというものだろう。人間は、幸か不幸か、道徳的なことを機械に教えてもらうほど素直にはできていない。例えば、知的障害者に対する「知障」という差別用語がある。これは明確な差別用語なのでたいていの IME には入っていないのだが、それでも使いたいネット民は「池沼」と書いている。知的障害者に対して「チショー」と言いたい・書きたいという彼らの気持ちは、IME には止められない。差別があるのとないのではどちらがいいかと言えば後者だろうが、それは IME にできることの範囲を超えている。具体的に、この「知障」という単語を入れろということではない。入れても入れなくても、IME には世の中をよくも悪くもできないということだ。

ジャストシステムの人は、人間というものに、機械に道徳を説かれて考えを改めるような「素直な」存在であってほしい・あるべきだと思っているのだろうか。そんな世界は、私にはディストピアとしか思えないが。

そうではなく、「やっかいな人(現実・仮想問わず)に何か言われたくないから入れない」というだけだったとしても、やっかいな人の都合を普通のユーザーの「思ったことを思ったように変換したい」という都合より優先しているということだ。


ネットで探したら、すでに書いている人がいた

私は、自分のうちこんだローマ字を漢字に変換するためにATOKを購入したのであり、「よのなかをただしくするため」ではない。

まさにその通りだ。私も、ATOK が好きなのは「ローマ字を漢字に変換する」といった仕事をきちんとしてくれるからだ。当たり前だが、ATOK 愛好者のほとんどはそうだろう。その一番基本となる層では「小人」「賤民」などを含めて変換をしてほしい。

ATOK ユーザーの中に「読む人によっては傷つくかもしれない言葉があれば注意してほしい」と思う人、さらに「そういう単語は変換すらしないでほしい」という人がいるなら、そういう人たちにはオプションを用意して、それらを有効にした人にはそういう層をかぶせてやればいい。


4つ目は、「多少偏ったジャンルの単語でも、よく使うものは入れてほしい」ということ。たとえば、iPhoneIME には「王蟲」「巨神兵」などが入っている。妥当な判断だと思う。しかし、ATOK にはない。杓子定規に考えれば、これらはアニメの中の架空の存在でしかない。しかし、これらはかなりの数の日本人が知っているものだ。ネットで検索すれば、これらがどれだけ使われているかは一目瞭然だ。「数字がすべて、数字こそ神」と言いたいわけではないが、ATOK の辞書にはそれらよりはるかに使用頻度の低い語彙も入っている。「まじめな」語彙は頻度がかなり低くても入れるのに、「巨神兵」のような「ふまじめな」単語はかなり頻度が高くても入れないというのは、「ふまじめな」単語に対して何百倍も不利な扱いをしているということになる。


1 は議論のあるところなので置いておくとしても、2〜4のような問題は Google 日本語入力にはない。ATOK がこれらの問題を持っているのは、人手で作っているからだ。しかし、「人手で作っているからスケールしない(大規模にできない)」ということではない。いくらジャストシステムGoogle ほど大きくないとはいっても、よく使われる新語・専門用語や欠けている自主規制語などを収集するといったことはそれほど難しいことではない。

では、なぜできていないのか。それは、ある意味では人間がやっているからだが、スケールといった問題ではなく、決断の問題だ。たとえば、「朝活」のような新語はさっそく取り入れているくせに、「貧乳」「社畜」のような単語は入れていない。ATOK のブランドイメージというものを後生大事にしているのだろう。

実際に、ATOK に対してある種のイメージを持っている人はいる。自主規制語の問題を Twitter でつぶやいたら、ある人から「ATOK は潔癖主義者のための IME なんだから当たり前」と言われた。確かに、そういう人もユーザーにはいるんだろう。しかし、それじゃあ「当たり前に、ストレスのない日本語入力をしたい」と思っているだけの、潔癖主義じゃない人間はどうなるんだ? Google 日本語入力でも使ってろって? XXXXX(省略されました)


もしも ATOK チームが、「キュレーション」的なものを ATOK の中心的な価値であると考えるなら、最近(でもないが)流行りのフリーミアムとやらを導入したらいいんじゃないかと思う。無料版は巨神兵王蟲・貧乳・社畜などのアニメ・ネット用語を入れまくったフリーダム辞書を強制ONにした状態で配る。「委員会様が選んだ正しい日本語セット」限定で変換したい人は有料版をどうぞ、という具合に。

それだけの手間をかける価値があるかという問題もあるが、今の時代、フリーダムに単語を入れまくるだけなら、その気になれば難しいことじゃない。もちろん、「これは『ふさわしい』単語か」「普通の変換を妨げないか」ということを一単語ごとに入念にチェックしていたら、とても間に合わないだろう。しかし、「単語かどうか」程度を簡単にチェックするだけで、候補の位置もコーパス上の頻度に微調整を加える程度にしたら、数万〜数十万の語彙は入れられるし、それだけあれば十分だ。無料ユーザー対象なら、一般的な変換を妨げないかということはそこまで気にしなくてもいい。多少は使い勝手が落ちるだろうが、そう簡単に他の IME 以下に落とせると思うなら、それは ATOK のよさに対して自信がなさすぎというものじゃないだろうか。

さらに、無料ユーザーには何らかのフィードバックを求めるということも考えられる。単語を登録する時に「送信する」をデフォルトON にしたチェックボックスを置くとか、自動登録単語や、どの候補を選択したかということを送るとか。誤変換レポートも選択肢に含めれば、一般的な変換を妨げるようなものを発見しやすくなるし、無料ユーザーによる検証を経た単語を有料ユーザー用に順次移行していくことも考えられる。


思わず夢を語りすぎてしまった。ただの無責任な外野なのに。ジャストシステムには、そうしたくない・そうできないいろいろな理由があるかもしれないし、もしやろうとしても面倒なところは山ほどあると思う。


こんなことを言いたくなってしまうのには、多少は理由がある。日本語入力には、他と違った特別さがある。それは、入力システムが書き手の文章に影響を及ぼすというところ。それだけの「責任」があるのだ。

他の言語でも同じじゃないのかと思われるかもしれないが、それは違う。主要な言語は、たいてい「正書法」という、言葉をどう綴るかに関する決まりを持っている。正書法がある言語では、発音と意味のセットがあれば、それをどう書くかは、ほぼ一意に決まる。英語でいえば、[bai] という発音で「買う」という意味なら "buy"、「〜によって」などの意味なら "by"、「またね」という意味なら "bye" というように。そういう言語では、書きたいことが決まっていれば表現形式は一つしかない。

しかし、日本語はそうじゃない。どれを漢字で書き、どれを仮名で書くかというところに自由度があり、漢字の中にも一般的なものや気取ったものなどいろいろある。たとえば、「ぼくはまったくわからなかった」という文は、ひらがなのままでも正解だし、「僕は」としてもいいし、「全く」としてもいいし、「分からなかった」「解らなかった」「判らなかった」のどれを書いても間違いとはいえない。だから、この一文には「(ぼく/僕)は(全く/まったく)(わからなかった/分からなかった/判らなかった/解らなかった)」と、2×2×4=16通りの書き方がある。

(日本語と同じく漢字を使う中国語ではこの問題はない。中国語では、他の言語と同じく、「発音」と「意味」が決まれば書き方もほぼ一意になる。日本語と同じく、「異体字」という、一つの漢字に対する複数の書き方があるようなものはあるが、特定のわずかな漢字に限られる)


このように書き方がいろいろある日本語を、読みやすいように書くことは簡単なことではない。そのためには、言語に関する一定の知識が必要だ。

たとえば、補助用言を仮名で書くというのはその一つ。用言というのは動詞・形容詞のこと。補助用言というのは、他の動詞や形容詞にくっつけて使う、本来の意味が薄まった動詞や形容詞。「書きやすい」「読みにくい」「歌ってみる」の後半部分のようなもの。「書き易い」「読み難い」「歌って見る」のように漢字で書いてしまうと、メイン部分のフォーカスがぼやけてしまう。

和語の副詞も仮名で書くのが読みやすい。副詞というのは、「しばらく」「ようやく」「かなり」「ほとんど」のような、後に続く用言や文全体を修飾するもの。これらも用言を補助するものなので、漢字として出しゃばらないほうが読みやすくなる。特に、「しばらく」「ようやく」などは、漢字で書くと「暫く」「漸く」のようにかえって紛らわしくなる。それに、和語の副詞の中には、漢字で書けないものや、めったに漢字で書かれないものも多い。「さっぱり」「いきなり」「ひたすら」「まさか」など。整合性という意味からも、和語の副詞は仮名書きにするのがいい。漢語の副詞も、漢語という意識が薄れているものは仮名書きにしたほうが読みやすい。

それぞれの用言についても、「漢字のほうが読みやすいもの」「仮名のほうが読みやすいもの」がある。たとえば、「着る」「切る」「折る」といったものは、もちろん漢字で書かないと読みにくい。短いため仮名表記では意味を想起させにくい・同音異義語があるなどの理由がある。しかし、「いじる」「ねじる」「ひねる」などは、仮名で書いたほうが読みやすい。こういうものは漢字で書くほうが紛らわしくなる。「弄る」と書くと「弄する」「弄ぶ」とぱっと見で区別がつけにくい。「ねじる」「ひねる」は、どちらも「捻る」と書けるので、字面を見てもどちらのつもりなのかがわかりにくい(「ねじる」は「捩る」とも書けるが、今度は「よじる」とぶつかる)。また、これらの動詞は「いじ」「ねじ」「ひね」という語幹を持つが、これらの持つ「音」は動詞の様相を喚起させやすい。だから、「音」を表す仮名で書いたほうが読みやすくなる。

もっとも、正書法のない日本語では、「どのように書けば読みやすくなるか」に対する個々人の考え方はもちろん違う。「公園」は漢字で書く、「する」は仮名で書く(「為る」とも書ける)といったレベルなら誰でも同意できるだろうが、細かいところになると意見が分かれる。

人間は元々、文字を扱うための専用の領域を脳内に持っているわけではない。文字が生まれたのは、せいぜいここ数千年のこと。表音的な正書法を持っている言語を話す人でも、書き方を間違える人は多くいる。標準的な書き方のない日本語で、どう書くべきかが難しいのは当然のことだ。


ATOK の中の人たちは、そういうところを代わりに考えてくれる。いろいろな意見を持つ人たちが、読みやすさや慣習を考えた上で、できるだけ偏りのないようなものを作ってくれている。

だから ATOK なら、迷った時は第一候補を選んでおけば、だいたいの場合読みやすいものになる。だからといって、それを強制されるわけではもちろんない。個人的なこだわりがあるところは、あえて違うものを選ぶことももちろんできる。その場合はそれを覚えてくれる。

たとえば、「なかをのぞいてみた」を ATOK 2011 (Mac)で変換すると、「中をのぞいてみた」となる。この「のぞいて」が「覗いて」にならないのは、いろいろな要素が考慮されたものだ。しかし、「私は『覗いて』と書かないと気分が出ない」という人も、もちろんいるだろう。そういう人が「覗いてみた」という候補を選んだら、その後たとえば「のぞかない」を変換することがあれば、それを「覗かない」にしてくれる。ATOK は、書き手の好みも尊重してくれるということだ。もちろん、機械的に「のぞく→覗く」と覚えているわけではない。「覗いてみた」と入れた後でも、「いちぶをのぞいて」と入れれば、ちゃんと「一部を除いて」と変換してくれる。


ATOK は「書く人のこと」と同時に「読む人のこと」も考えて作られている。人間は、言語の「音」については鋭いセンスを持っているが、「表記」についてはそうでもない。だからこそ、ガイド的な存在が必要なのだ。


最近ネットでは、以前は漢字で書かなかったものが漢字で書かれるようになっているのを目にすることが多い。これは、過渡期の現象なのかもしれない。昔は、「漢字を多く書ける人≒漢字を多く知っている人≒頭のいい人」というつながりが成り立っていた。両端のつながりが成立していたのは、左二者のつながりがあったからだ。しかし、今は明らかに左二者のつながりは切れている。漢字をあまり知らない人でも、提示される漢字を適当に選ぶということはできる。そうなっている以上、「漢字を多く書ける人」と「頭のいい人」という両端のつながりも当然成り立たない。

私は Wikipedia をたまに編集することがある。あまりにもひどい漢字の使い方を目にした時が多い。そういう記事を見たら、その部分だけでなく記事全体を見るようにしている。経験上、やたらと難しい漢字を使う人が書いた文章は、漢字以外の面での質もたいてい低いからだ。句読点の位置・言葉遣いの統一性など。

次の世代になったら、「漢字を多く書く人≒適切に仮名を使えない人≒頭の悪い人」という図式になるかもしれない。個人的には、そうなってほしい。


ATOK が普及すれば、日本語の書き言葉が向かう方向が、ほんの少しだけ「読みやすさ」側にずれるだろう。書き言葉というものが普遍的に持つ、「一人が書いて、一人または複数人が読む」という性質を考えると、それは望ましいことだ。だから、個人的には ATOK にはがんばってほしい。そのためにも ATOK には「フリーダム版」を用意してほしいと思う。無責任な意見だというのはわかっているが。


Twitter で自分のタイムラインを見ていると、「貧乳」「社畜」といった単語が入っていないと不便だと思うような人は多いと思う。私の観測範囲は多少偏っているとは思うが。
(これらは「はてなキーワード辞書」には入っているが、それはサジェスト専用で、文中の変換には使えない)

「ひんにゅう」「しゃちく」という日本語の語彙は、何とか委員会が認めようと認めまいと、それによって日本語から消えることはない。言葉の「音」は、言語の領域だからだ。私には、彼らは「音」という場で勝ち目のない戦いをしながら、戦えば勝ち目のある「表記」という戦場をおろそかにしているように見える。

(もちろん、言語という生き物のメカニズムによって、これらの新語が自然に消えることはあるかもしれない。しかしそのメカニズムは、「朝活」のような「まじめな」単語に対しても、「貧乳」「社畜」といった「ふまじめな」単語に対しても平等に働くものだ)


簡単にまとめてみる。

日本語は、正書法がないという特徴を持っている。その入力システムは、「正しさ」だけでなく、「読みやすさ」「好み」といった、機械的に測りにくいものを考える必要がある。だから、日本語の入力システムとしては、人間がきちんと考えて作ったものにがんばってほしい。そのために、ATOK の中の人には、本質的に入力システムにはどうしようもできない「音としての言語」を制御しようという(失敗が運命づけられた)試みによってユーザーを遠ざけるようなことをしてほしくない、といったところになるだろうか。


熱くなって、だいぶ長文を書いてしまった。

私は言語には思い入れがありすぎて、仕事にするのには向かないのかもしれない。

仕事を辞めたら半年ぐらいぶらぶらする予定なので、その間に頭を冷やしてよく考えてみようと思う。