ニューラルかな漢字変換の細かいツッコみどころ

ニューラルかな漢字変換という記事へのツッコミです。

いや、ニューラル部分はいいんですよ。

ぼくはやってないから。


ツッコみどころは、ごく細かいところです。

注釈の、「かな漢字変換はN=3以上にしても精度が上がらないことが実験により確かめられています。詳しくはの論文(リンク)を参照ください。(ドヤァ 」という箇所です。


それ、BCCWJのコアデータだけ使った場合ですよね。


ぼくは以前、N-gram かな漢字変換を作って公開したことがあります。

これは、京都大学で公開している言語モデル配布ページの、BCCWJ全体を使ったものです。

実装はhttps://github.com/hiroshi-manabe/ngram-converter-cppにあります。


http://vocrf.net/test/ime.htmlで、4-gram かな漢字変換をテストできます。

(PCで、PCのIMEを切って、IME On/Off ボタンを押します)

これでやったら、例えば「今日の天気は」等は変換できます。

(ちなみに、例えば「てんきがおとずれた」はちゃんと「転機が訪れた」になります。)


まあ、ぼくのやつはテストデータと訓練データを分離したちゃんとした実験をしていないので、うまくいって当たり前と思われるかもしれません。

でも、BCCWJコーパス全体の中に「今日の天気」は47件もあるので、訓練データとテストデータを分けたとしても、偏りなく分ければ訓練データにも多数含まれることになります。

(ところで、言語モデル配布ページのkkc-BCCWJ.tarの中の3-gram.fwkを見ると「2 今日/きょう の/の 天気/てんき」となっていて、3-gram が2個しかないことになっているんですよね。少納言などで調べると47件あるのに。どうしてこうなっているんでしょうか?)


いや、ぼくのやつはちゃんと論文にしてないし、これがどこかの知らない人なら、「お前の 4-gram 変換なんて知らん」と言われたらそれまでなんですけどね。

不思議なのは、yoh_okuno さんは昔Ngramかな漢字変換とMozc辞書の比較(現在はプライベートモード)という記事を書いて、(ぼくがサボってた)精度の検証をしてくれているということです。

そのときに、変換結果を見ていたら、2-gram じゃできないような変換(元記事で書かれているようなもの)が 4-gram でできているということに気づいて、「かな漢字変換はN=3以上にしても精度が上がらない」ということが一般的には言えないとわかってもいいはずだと思うんですよね。


まあ、今回の記事のやつはコアデータだけ使っているということで、それでニューラルでうまくいっているのはほんとすごいとは思うんですけど。

単純に、不思議だなぁという話でした。

責任と対策の分離

通常の場合、何かの問題に責任のある人がいる場合、その人に何とかしてもらうのが筋です。

それが原則です。

ただ、責任のある人が多数である場合など、その人たちに何とかしてもらうことが難しい場合、発想を「責任」から「対策」に切り替える必要があります。


はい、ちょまど氏の件です。


人間を人間として扱わないからサークラ問題が起きるんだよ


確かに、ちょまど氏は合法手しか打っていないので責任はありません。

責任はちょまど氏をアイドル扱いする側にあります。

ただ、「アイドル扱いをやめろ」「人間扱いしろ」という言葉で、問題が魔法のように解決するというわけではありません。


さて、ちょまど氏がこの状況を意識的に作っているなら、合法手だけを打っているちょまど氏を止める方法はありません。

でも、ちょまど氏は本当にこの状況を望んでいるの? というのが、前記事の問いかけでした。


ちょまど氏がこの状況を望んでいないのであれば——もちろん、ちょまど氏には何の責任もないのですが——この状況を変える鍵はちょまど氏にあるのではないか。

というのが、私の考えです。


で、ちょまど氏が望んでいないのであれば、という前提で。

そうであれば、ちょまど氏は現状分析ができていないと思われます。

(できていれば、今の行動になっていないはずなので)

だから、現状分析(表層意識で意図していなくても、結果としてチヤホヤされる行動になっている)を提供しようと思ったわけです。


で、なぜその表層意識と行動のずれがあると私は考えているか。

そこで初めて、男性恐怖の話が出てくるわけです。


整理すると、以下のようになります。


1. ちょまど氏は今の状況に対する責任はない。

2. よって、ちょまど氏が今の状況を望むなら、誰もそれに干渉できない。→終わり

3. ちょまど氏が今の状況を望んでいないのであれば、行動を変えるという選択肢がある(変えなければそのまま)。

4. 行動を変えるという選択肢を選ぶ場合、現状分析が必要なので、私なりにそれを提供したい。

5. 私なりの現状分析は、ちょまど氏の表層意識と潜在意識にずれがあるというものである。

6. その原因は、ちょまど氏の男性恐怖である。


つまり、3 の前提が外れている場合(ちょまど氏が今の状況を望んでいる)や、4 の前提が外れている(行動を変えるという選択肢を選ぶつもりはない)のであれば、前の記事は「見当違いかつお節介」でしかなかったわけです。

そこは賭けなのでしょうがないですね。

私としては、3 と 4 の前提が当たっている(ちょまど氏は今の状況を望んでおらず、何かそれに対してできることがあるならしたいと思っている)ことを願っています。

ちょまど氏をめぐる異常事態

最近、Xamarinという製品についての勉強会で炎上騒動がありました。

初期の記事としては、以下のものがあります。


xamarinコミュニティの炎上について思うこと


その後、主催者側や批判側からいろいろな記事が出て、泥沼の様相を呈していました。

以下はその例です。


JXUG 名古屋ハンズオンでの事実について

続ちょまど問題


これらの記事を見てもわかるように、ちょまど氏をめぐっては、アンチファンが非常にはっきりと分かれています。

(アンチ・ファンというのは語弊がありますが、あえてこう書きます)

どちらにも著名な人・技術的に優れた人がいるので、お互いに「あの人は技術的には尊敬できるのに、なんでこの問題ではあんななんだろう」と思うようなことも多いんじゃないでしょうか。

これは、はっきり言って異常事態だと思います。


一人の人間をめぐって、アンチとファンの間で分断が起こるということ自体、異常事態である。

まずは、アンチ・ファン共に、この認識からスタートする必要があるのではないでしょうか。


残念ながら、ここで相手の動機を邪推して、それで済ませてしまう人がたくさんいます。

アンチ側の人は、ファン側の人を、「ただやりたいだけなんだろう」と思っている。

ファン側の人は、アンチ側の人を、「ただ嫉妬しているだけだろう」と思っている。


でも、お互い人間なので、実際はそこまで単純ではないのではないでしょうか。

仮にいたとしても、それは双方の最悪なごく一部だけかもしれません。

そういう最悪同士はわかり合うことは無理にしても、残りの人たちはわかり合う余地があるのではないでしょうか。

それが、私がこの記事を書く目的です。

アンチ側の感覚

ファン側の人には、アンチ側の人は嫉妬していると考えている人が多いようです。

ちょまど氏がMicrosoft社のエバンジェリストになったタイミングで、結城浩氏が「妬みについて」という連ツイをしていましたが、その見当外れっぷりに思わず失笑してしまいました。*1



そもそも、嫉妬という感情は普遍的なものなので、それが原因であれば、いつもそういうことが起こっているはずなんですよね。

それでは、今回の異常事態を説明できません。

おまえがいま感じている感情はただの嫉妬だ。しずめる方法は俺が知っている。俺に任せろ。」みたいなことを言っても、言われるほうとしては、何言ってんだこいつという感じですよね。


この件に関して、嫉妬というのは主な原因なのでしょうか。

男女に分けて考えてみましょう。


前提として、アンチ側には、ファン側の人がちょまど氏を一人の女性として持ち上げているように見えているということがあります。

(これについては、xamarinコミュニティの炎上について思うことに書かれています)

ファンの人にそういうつもりはなくても、「そう見えている」ということは押さえておいたほうがいいと思います。


その前提で言うと、男性がちょまど氏に嫉妬するというのは明らかにおかしな話です。

男女を入れ替えて考えてみましょう。

学校のクラスで、アイドルのような男子生徒が多くの女子生徒にチヤホヤされているとして、チヤホヤしていない少数派の女子生徒は、その男子生徒に「嫉妬」するでしょうか?

しないですよね。

嫉妬というのは、自分と似たような立場(性別など)の人に対して起こることが多いものです。

一般男性がアイドル女性に嫉妬するというのは、一般女性がアイドル男性に嫉妬するというのと同じぐらい、考えにくい想定です。


では、女性はどうか。

ちょまど氏のようになりたいと思う女性がもしいれば、ちょまど氏に対して嫉妬してもおかしくないかもしれないですね。

でも、私の観測範囲では、以下のような考え方が圧倒的です。

「くっそキモい男達だな、このちょまどって人はこれを好きでやってるのか、それとも会社の命令でやってるのか知らんけど
前者だとしたら何考えているのか分からんし、後者なら気の毒過ぎる」としか思えない

http://anond.hatelabo.jp/20161130112113


女性からすると、好かれたいと思わない人間に好かれてもうれしくないというのが大きいようです。

身近に女性がいる男性の方は、この件に関して一度意見を聞いてみるのもいいのではないでしょうか。


では、アンチ側の男性はどういった考えなのでしょうか。

私が見る範囲では、以下のような考え方が多いように思います。


ちょまどさん問題

ざまりんに興味無いからへらへら笑って見てられるけど、こういう光景が自分が好きな技術勉強会で繰り広げられてることを想像すると吐き気しますね

2016/11/30 15:45

ファン側の感覚

アンチ側の人には、ファン側の人はちょまど氏の性的魅力に目がくらんでいると考えている人が多いようです。

これに関しては、一部にそういう人がいることは事実です。


日本マイクロソフトに入社した「ちょまどさん」がめちゃくちゃ可愛い件について


これは、完璧にちょまど氏を性的な視線で見ていますよね。


ファン側の人で、実際にちょまど氏の性的魅力に目がくらんでいて、それを堂々と表明するような人は、アンチ側の人との和解の余地がありません。

しかし、全員がそうではないはずです。


例えば、上で「妬みについて」を書いた結城浩氏ですが、彼がちょまど氏の性的魅力に目がくらんでいるとは考えにくいところです。

何より、ちょまど氏はずっと顔出しを(あまり)しないでツイッターで活動してきたため、中の人が男性か女性かすらわからないという状態が長く続いていました。

その状態で性的魅力で目がくらむというのはありそうにないですよね。


では、ファン側の人たちはちょまど氏のどういうところに惹かれているのか。

これについては、有名な「フロッピーディスクの正体」のまとめが参考になるのではないかと思います。


これは、フロッピーディスクというものを見たことがないというちょまど氏に、それがどういうものが周りの人が教えてあげるというものです。

あまり悪意のないコメントとして、以下のようなものがあります。


フロッピーディスクの正体 - Togetterまとめ

すごいすごいっていう反応におじさんたちが喜んでる平和な図かな:フロッピーディスクの正体 - Togetterまとめ

2014/06/17 10:53


ちょまど氏は、こういう「すごいすごい」という反応をする、いわゆるマンスプレイニングを聞いてあげるのがすごく上手なんですよね。

こういうところに惹かれてちょまど氏を好きでいる人も多いのではないでしょうか。

アンチの人からすると、それでも気に入らないかもしれませんが、少なくともそれは性的魅力を直接使っているわけではないということは押さえておく必要があると思います。

整理

いったん整理します。

アンチ側の人の中には、嫉妬して叩いているわけではなく、「オタサーの姫と取り巻き」的な状況を嫌っているというだけの人もいる。

ファン側の人の中には、性的魅力に目がくらんでいるわけではなく、ちょまど氏のキャラを好きでいるという人もいる。

こういう人たちの間では相互理解が可能なのではないかというのが、私の考えです。

共通の目標を目指すことはできないでしょうか。


ちょっと現状を離れて、理想的なコミュニティの姿を考えてみましょう。


男女比が5:5、あるいはそこまで行かなくても7:3ぐらいで、男性も女性も「性」について意識することなく技術に集中している


これであれば、アンチ側の人もファン側の人も、理想的な姿として考えられるのではないでしょうか。

アンチ側の人にとっては、姫と取り巻きという構図がなくなればそれでいい。

ファン側の人にとっては、元々「性」について意識することは本意ではない。

目標としては、いい落としどころではないかと思います。

現状

では、現状はなぜ今のような惨状(あえてこう書きます)になってしまっているのでしょうか。

そこには、やはり「ちょまど氏のキャラ」を避けて通ることができないのではないかと思います。

(責めることが目的ではないので、ファンの方も激高せずに読んでいただければ幸いです)


ちょまど氏のキャラについては、ファンとアンチで見方が完全に違います。

ファンから見ると、健気にがんばる素直な女の子

アンチから見ると、キモオタに媚びる姫

いったい、どちらが本当のちょまど氏なのでしょうか。

これは、「表層意識」と「潜在意識」のずれによるものなのではないかと、私は考えています。

表層意識

ちょまど氏は、本当に心の底から、「よくあろう」としているのだと思います。


こう書くと、アンチ側の人は「そんなはずがあるか」と思うところかもしれません。

ああいう「姫」が計算高くないわけがない、そんな姫は見たことがない、と。


しかし、考えてみてください。

ちょまど氏が普通の「姫」であれば、ここまでの事態になっているでしょうか?


自分の性的魅力に自覚的な計算高い「姫」は、そこら中にいます。

しかし、ちょまど氏は普通の「姫」ではなく、全国レベルの「姫」なのです。

そうなるためには、健気さが本物である必要があった。

作られた健気さでは、例えば結城浩氏のようなレベルの人が「釣れる」こともなかったでしょう。

アンチ側の人も、ちょまど氏が「本物」であるという可能性を真剣に考える必要があります。

潜在意識

アンチ側の人には、ちょまど氏が「男に対する媚びの塊」のように見えています。

これは特に女性に顕著です。

自分がああいう行動を取るとしたら、それは「媚び」以外ではありえない、ということです。


では、ちょまど氏は男に対して媚びているのでしょうか。

私は、それは半分当たっていて、半分外しているのではないかと思います。

「ちょまど氏は、みんなに平等に好かれようとして(媚びて)いる」というのが実際のところではないでしょうか。


ちょまど氏は、人に好かれたいという気持ちが人一倍強い。

それで、無意識のうちに、人に好かれるように自分の行動を調整しているのだと思います。


しかし、ちょまど氏の周囲にいるのは、ほとんどが男性です。

すると、「人に好かれるように」というのが、自動的に「男性に好かれるように」になってしまいます。

それだけのことであって、ちょまど氏本人は女性にも好かれたい、むしろ女性にこそ好かれたいのではないかと推測しています。


それにしても、みんなに好かれたい人が、結果として男性にしか好かれないような行動を取っているとしたら、ちょっと不思議ですよね。

そこには、ちょまど氏の「男性恐怖」が関わっているのではないかと考えています。

男性恐怖

ちょまど氏のことをよく見ている人であればわかると思いますが、ちょまど氏には「男女関係に対する恐怖」があります。*2

男女関係には性欲が強く絡み、人間関係もドロドロしたものになりやすく、ちょまど氏の心はそういうものに耐えられないようです。

ちょまど氏がそういうものに触れた後に動揺し、心を落ち着けるために「ホモ*3」を摂取する、というのを見たことがある人もいるのではないでしょうか。

(私は昔ツイッターでフォローしていたので見ていました)


それがなぜ、男性にしか好かれないような行動につながるのか。

一見、矛盾しています。

これは、ちょまど氏が「男性の性欲に目をふさいでいる」と考えるとつじつまが合います。


上の女性の意見を再掲します。

「くっそキモい男達だな、このちょまどって人はこれを好きでやってるのか、それとも会社の命令でやってるのか知らんけど
前者だとしたら何考えているのか分からんし、後者なら気の毒過ぎる」としか思えない


この女性は、なぜ「男達」を「キモい」と感じるのでしょうか。

それは、彼らの性欲が、あまりにも明らかに透けて見えるからです。

だから、なぜちょまど氏がこういう行動を取っているのか、さっぱり理解できないのです。


しかし、ちょまど氏に彼らの性欲が見えていないとしたらどうでしょうか。

そうすると、ちょまど氏には彼らが「純粋なファン」に見え、自分のことは「ファンに好かれる私」に見えているはずです。

たとえ、外から見るとそれは、「キモオタに囲まれて喜んでいる何考えているかわからない女」であるとしても。

そこには、VRで充実した生活を送る人と、その様子を見る人のような、大きなギャップがあります。

私は「モジャ公」のシャングリラ星を思い出しました。


わかりやすい「悪者」はいない

こう見ると、現在の惨状を招いたわかりやすい「悪者」はいないということがわかるのではないでしょうか。

「醜い嫉妬」「姫になりたい女」「性欲丸出しの男」といったわかりやすい敵を叩けば解決するような、そんな単純なものではないのです。

この問題を真剣に考えるのであれば、複雑さに向き合う必要があります。

(人が集まれば場がどれだけ荒れても構わないと考えるようなクズや、性欲丸出しで何が悪いと開き直るような人については、対話可能性がないので置いておきます)


究極の原因は、「ちょまど氏の表層意識と潜在意識のずれ」にあります(少なくとも、私はそう考えています)。

しかし、これが解決できるかというと、難しいものがあります。

というのは、潜在意識が表層意識の願望をかなえてしまっているからです。


ちょまど氏は、表層意識では「性と関係なしに、人に好かれたい」と思っています。

しかし、潜在意識では、周りの人(=男性オタク)に好かれるような行動を取っています。

表層意識が「性」の存在さえ無視すれば、「人に好かれたい」という願望は実現されています。


ここで、解決の可能性があるとすると、ちょまど氏の表層意識に「性」を意識させるということがあるでしょう。

日本マイクロソフトに入社した「ちょまどさん」がめちゃくちゃ可愛い件について」の記事からもわかるように、「性」でちょまど氏を持ち上げている人がそれなりにいる、という現実を確認するということです。


ちょまど氏の表層意識がその現実を認識したら、彼女には二つの選択肢があります。

ひとつは、「性によって好かれている」という望ましくない状況を招かないよう、そういう人に毅然とした態度を取ること。

もうひとつは、これまで無意識にやっていたことを意識的にやる、つまり性を活用していくということ。

どちらを選ぶにしても、意識的になる分だけ状況がわかりやすくなります。


問題は、ちょまど氏本人にとっては、現状維持が最も望ましいということです。


後者(意識的に性を活用していく)の選択肢の不利益は明らかです。

社会的な非難もあるでしょうし、真面目なファンは離れてしまいます。


前者(性的な要素を排除する)でも、不純なファンが大幅に減ってしまうということが考えられます。

また、これまで「人に好かれる」ことに最適化して生きてきた人が、その思考回路を急に変えられるのかという問題もあります。


こう考えると、この状況の解決はやはり難しいのかもしれません。

個人的には、女性目線の意見が出てくることを期待しています。


本来は性別を限定したくないところですが、今回の場合は、ちょまど氏の男性恐怖という特殊事情があります。

それを考えると、男性の言葉はただでさえちょまど氏には届きにくく、もし下心などがあればなおさらです。

しかし、「女性の目にはちょまど氏がどう見えているか」ということを、まっすぐ敵意なしに伝えてくれる女性の声であれば、ひょっとするとちょまど氏に届くかもしれません。

女性にとって

この件に関して、女性は「近寄りたくない」と感じる人が多いようです。

性と承認欲求の渦巻く場はもううんざりだ、という感覚のようです。

女性は、似たような場面を実際に経験する機会が多いためでしょうか。


少なくとも、多くの女性にとって、ちょまど氏の存在は勇気づけられるものではないようです。

「男社会でうまくやっていくためには、あんなふうに男に媚びないといけないのか」と失望している人もいます。


外見や年齢的な条件から、「ブス・ババアのひがみ」と思われることを恐れて意見を表明することを避けているという人もいるかもしれません。

(非常に残念なことですが、そういう心ないことを言う男性はいます)

しかし、上で挙げた理想状態(男性も女性も「性」について意識することなく技術に集中している状態)に至るまでには、女性からの意見(できれば、業界で著名な女性に限らず、ごく普通の女性プログラマのものも含めて)も欠かせないと思います。

今回の件は、男女という要素が少なからず絡むものなのに、男性の意見しか出てこないというのは不自然ではないでしょうか。

女性が声を上げやすい雰囲気になればと思います。

まとめ

現状として、ちょまど氏のファンとアンチの間の争いという惨状があります。

しかし、それは本来であれば、性を利用することを否定するか肯定するかという、よりマシな議論にできるのではないかと思います。

その場合、現状のファンの中で不純な一派を切り捨て、また現状のアンチの中でちょまど氏本人を嫌っているわけではない人と合流することで、「否定派」という大きな枠組みで団結できるのではないでしょうか。

(私自身は明確な否定派です)

そうなることを願っています。

おまけ:元彼について

ちょまど氏の元彼についての心ない噂が出回っています。

というか、ちょまど問題の「さらに追記」部分で引用されていたのは私のツイートなのですが…。

あれは、私の友達がちょまど氏に関する噂について知りたがっていたので、一般的にそう思われていると考えられるところをまとめてあげただけで、事実という保証もありませんし、それに個人的な問題を攻撃に使うのは間違っています

ちょまど氏の元彼の件でちょまど氏を貶めるような言説が出回っていますが、私はそういうものは唾棄すべきものだと思います。

そもそも、男性については男女関係が取りざたされることはあまりないのに、女性に関してはそういうことが起こりやすいとしたら、あってはいけないことです。

追記

ちょまど氏をめぐる異常事態 - アスペ日記

元カレの話は個人攻撃じゃなくて「ちょまどがおぼこじゃないってわかったらみんな離れていくよ」みたいなことを言ってたのがいたから誰もそんなこと思ってないだろって意味で書いたんだが

2016/12/07 00:44

書いたときの意図としては、「個人的な問題を攻撃に使うのは間違っています」は「ちょまど氏の元彼についての心ない噂が出回っています」にかかっていたのですが、きょうもえさんに言ったように読めますね。すみません。

まあ、それはそれとして。

ちょまど氏は Microsoftエバンジェリストになった時点でファンの新規流入がだいぶあったと思われるので、「誰もそんなこと思ってないだろ」はちょっと同意できないですね。

例の引用で知った人も多いと思いますよ。

(厳密な割合はわからないので、水掛け論的ですが)

*1:彼の連ツイとちょまど氏の件との間に関連があるかないかは見る人次第だと思いますが、タイミング的に私には関連があるように見えました。

*2:ちなみに、男性恐怖症でも彼氏がいるということは普通にあります。

*3:実際の男性同性愛者同士の関係には性欲もドロドロした人間関係もあると思いますが、ここでの「ホモ」は腐女子のための理想化されたものです。

機械翻訳は自動織機ではなくチェーンソーであるという話と、その帰結

先日、機械翻訳と意味という記事を書きましたが、それ以降も新Google翻訳の精度向上はあちこちで話題になっています*1


新Google翻訳を使って3700ワードの技術文書を1時間で翻訳した

Google翻訳の強化でもっとも得するのは翻訳家という妙


共通して述べられているのは、「新Google翻訳の精度が下訳に使えるレベルになった」「新Google翻訳は、翻訳家にとって大きな助けになる」ということです。


さて、この記事を読む人であれば、ラッダイト運動というものについて聞いたことがある人も多いかと思います。

この運動は、機械によって雇用を奪われた手工業者が起こした機械破壊運動なのですが、このときに対象となった機械は、自動織機のような、人手を置き換えるタイプの機械でした。


それに対して、機械翻訳は、人間の能力を拡張(エンハンス)するタイプのものです。

人間の翻訳家を置き換えるものではなく、翻訳家によって使われることで、翻訳家の生産性を何倍にも上げることができることになりそうです。

これは、機械で言うと、自動織機よりもむしろチェーンソーのようなものではないでしょうか。

チェーンソーは作業の効率を上げてくれるものなので、例えば昔の木こりにチェーンソーを渡したとしたら、すごく感謝されそうですよね。


lifehacking.jp のほうの記事には、こんなタイトルの段落があります。

短期的には、英語のスキルを持っている人にとって朗報


まあ確かに、機械翻訳がチェーンソーのようなものであることを考えると、短期的には朗報であることは間違いないでしょうね。

しかし、私はこの「朗報」という言葉に引っかかってしまいました。

(それが、この記事を書くことにした直接のきっかけです)

確かに短期的には朗報かもしれないけれど、それで喜んでいていいのでしょうか。

中期的長期的にはどうなるのでしょうか。


ここで、ちょっと仮想の世界の話を考えてみます。

この世界では、100人の木こりが働いていて、1日10本の木を切って、合計で毎日1000本分の木材を生産しています。

木こりは、木を1本切るごとに1000円をもらい、1日1万円の収入で生活しています。

ある日、この世界の山の洞窟に無料のチェーンソーの山があるということに、ある木こりが気づきます。

その木こりがチェーンソーを持ち帰って木を切ってみたところ、5倍の速さで木が切れて、1/5の時間でその日の仕事が終わってしまいました。

ゆっくり過ごす時間ができた木こりは大喜びです。


——と、ここまでが、上記の記事で述べられているような、短期的な状況ではないでしょうか。


さて、そこから先を少し考えてみます。

無料のチェーンソーの存在はそのうちみんなに知られてしまい、みんながチェーンソーを持つようになりました。

そうすると、効率が5倍になっているので、何人かの木こりは精いっぱいそれを活用しようとして、「私は50本の木を切る仕事を受けられますよ」と言います。

そういう木こりがある程度出てきたところで、残りの木こりは、受けられる仕事がなくなってしまったことに気がつきます。

そうなると生活ができなくなるので、ある木こりが「私なら、木を1本切るのに、1000円ではなく、500円でやりますよ」と言います。


そうこうするうちに、最終的には報酬は1本200円で落ち着き、20人の木こりが、1日50本の木を切って、1日に1万円を稼ぐようになりました。

残りの80人の木こりは?

失業して、ほかの仕事に就くことになりました。


これが、中期的に起こることです。

これは単純化したモデルで、実際は各人間の生産性の違いも大きいと思いますが、翻訳の単価が安くなる生き残れる人が少なくなるという流れはわかるのではないでしょうか。


これだけでは救いがないようですが、さらに長期的に考えると、次のようなことが起こると思われます。

これまでは、みんな小さな家に住んでいたのですが、木が1本1000円から200円になったことによって、同じ予算でもっと大きな家が建てられるようになりました。

みんなが大きな家に住むようになったので、必要な木材の量は2倍にもなり、1日に2000本の木が注文されるようになりました。

今では、40人の木こりが、チェーンソーを使ってそれぞれ1日に50本の木を切っています。


翻訳で言うと、単価が安くなったことによって、それまで翻訳されなかったようなものが翻訳されるようになるということになります。

それでも、その新しく生み出された需要は単価の低下によるものであり、元々の翻訳家数を維持できるほどにはなりません。


さて、繰り返しますが、以上に書いたことは非常に単純化したモデルです。

翻訳家の技量の違いや、機械翻訳にかけられないような機密性のある文書の翻訳など、このモデルから外れるところもあります。*2

また実際には、短期・中期・長期という時間がはっきり分かれているわけではないので、単価の低下と市場の拡大は同時進行で起こる、つまり翻訳家の需要は「一旦底をついてから回復する」というより「じわじわと減り続けて安定する」と考えるほうが自然かもしれません。


いずれにせよ、中・長期的には、新Google翻訳は翻訳家にとっては朗報とはいえない(生き残れる翻訳家の数が限られる)というのが私の考えです。

この中で、どうやって生存戦略を考えていくか。

翻訳家にとっては難しい状況になりそうです。


最後に、宣伝を兼ねて、ロボットの脅威 ―人の仕事がなくなる日からちょっと不吉な引用をします。


だが、ロボットや機械学習アルゴリズムをはじめとする自動化の波が次第に、職に必要なスキルのピラミッドを底辺から蝕んでいる。そして人工知能のアプリケーションが徐々に高スキルの職業まで侵そうとしているため、ピラミッドの頂にある安全な領域すら時間とともに減っていくだろう。

教育と訓練へとさらに投資を行うという従来の解決策は、縮小しつつある上位の領域へ全員を詰め込もうとするものだ。そんなことが可能だと考えるのは、農業の機械化の影響で元の職から追われた農場労働者が、トラクターを運転する職を見つけられると考えるのに似ていると思う。数が計算に入っていないのだ。

*1:ですます調とである調をその時々で適当に使い分けています。

*2:ただ、機密性のある文書の翻訳でも、効率が上がるとなると、「抜け駆け」的にこっそり機械翻訳が使われてしまうということも起こるのではないでしょうか。

機械翻訳と意味

ここ最近、Google翻訳がリニューアルされ、性能が向上したという話が流れてきたので、さっそく試してみた。

ぼくが真っ先に試したのは、「母は、父が誕生日を忘れたので、怒っている。」だ。

なぜこの文が気にかかっていたかは後述する。


結果は次の通り。



"My mother is angry because my father forgot her birthday."


すばらしい。

では、「母は、父がを忘れたので、怒っている。」はどうだろうか。



"My mother is angry because my father forgot his bag."


完璧だ!

「誕生日を忘れた」の場合は「母の誕生日」と解釈し、「鞄を忘れた」の場合は「父の鞄」と解釈する。

これこそ、利用者が翻訳に求めるものじゃないだろうか。


しかし、ここまでだった。

次にぼくは、「父」と「母」を入れ替え、「父は、母が誕生日を忘れたので、怒っている。」を翻訳してみた。



"My father is angry because my mother forgot her birthday."


「誕生日」を「母の誕生日」と解釈している。

最初の文でうまくいっていたのは偶然だった。


さて、なぜぼくは「母は、父が誕生日を忘れたので、怒っている。」という文が気にかかっていたのか?

ぼくがこれを見たのはある語学教材の中でだったが、「誕生日」が「誰の」誕生日なのかを確定するために必要な知識・推論を考えると、なかなか複雑だということに気づいたからだ。

文字にすると、以下のようになる。

背景知識として、次のようなことがある。


1. 誕生日というのは、人間にとっての良いイベントである。

2. 誕生日を忘れるというのは、その誕生日がどの一日であるかを忘れるということである。

3. あるイベントがどの一日であるかを忘れると、そのイベントについてに行うべきことを正しい日に行えなくなる。

4. 父と母というのは、この文脈では話者の父親と母親を指す。

5. ある人間の父親と母親は夫婦の関係である。

6. 夫婦は親しい間柄である。

7. 親しい間柄の二人は、互いに良いイベントを祝うことをお互いに期待する。

8. 人は、自分が相手に期待することを相手がしないと怒る。


そして、これらから次のようなことが導かれる。


A. 4, 5, 6 より、「父」と「母」は親しい関係である。

B. A と 1 と 7 より、「母」は「父」が誕生日を祝うことを期待する。


ここで、「父が誕生日を忘れた」を「父が(母の)誕生日を忘れた」という仮説 X を導入する。

すると、次のことが導かれる。


C. 仮説 X と 2 より、父は母の誕生日がどの一日か忘れたということになる。

D. C と 3 より、父は母の誕生日について行うべきことを正しい日に行えない(行えなかった)ことになる。

E. B と D と 8 より、その仮説のもとでは「母」は怒ることになる。


というわけで、「父が(母の)誕生日を忘れた」という仮説が強力に支持される。

また、このほかに「人間は自分の誕生日を忘れることはあまりない」という背景知識もあり、それによって「父が(父の)誕生日を忘れた」という仮説はもっともらしくないことになる。

これらより、「父が誕生日を忘れた」は「父が(母の)誕生日を忘れた」という意味であることがほぼ確実であるといえる。


明示的にこういうことを考えているわけではないだろう。

しかし、「誕生日」を「鞄」に変えると自然な推論が「(父の)鞄」になることからわかるように、これに似た何らかの推論を行っていることは確かだ。

(「鞄」とすると「(父の)鞄」が自然な推論になることの背景には、「人が鞄を持ち歩く場合、それはたいてい自分の鞄だ」といったものがあるだろう)


さて、なぜぼくはこんなことを書いているのか。

それは、機械翻訳と、例えば自動運転やコンピュータ将棋などとの違いを確認するためだ。

結論から書くと、後二者が人間を必要としなくなることは比較的近い将来に想定可能だが、機械翻訳はそうではないということだ。


人工知能について語るとき、よく次のようなことが言われる。

「飛行機は空を飛べるが、鳥を模倣しているわけではない。機械で何かを実現するにあたって、生物がそれを行っているようにやる必要はない」


これは妥当だろうか?

ぼくはそう思う。

目的さえ達成できるのであれば、その手段はどうでもいい。

これに賛成する人は多いだろう。

では、機械翻訳・自動運転・コンピュータ将棋のそれぞれの目的は何だろうか?


自動運転であれば、目的は出発地から目的地まで安全に移動することだ。

人間のように考える必要はない。

地図の情報や周囲の情報を、適切なハンドル・アクセル・ブレーキの動きに変換すればそれでいい。

(さらに言えば、車を運転する必要すらなく、どこでもドアが開発できればそれが一番望ましい)


コンピュータ将棋であれば、目的は相手に勝つように駒を移動することだ。

人間のように考えなくても、盤面の情報を適切な駒の動きに変換すればそれでいい。


これら二つの目的の中に、人間が入っていないということがポイントだ。


では、機械翻訳の目的は何か。

それは、原語の文によって人間が伝えたかったことを、人間に伝わるように、目的言語に翻訳することだ。


ここで問題になるのが、目的の中に人間が入ってしまっているということだ。

そうである以上、正しい翻訳をするためには、人間の思考を何らかの形でエミュレートせざるを得ない。

コンピュータ流の思考を通すわけにはいかない。

例えば、「父」と「母」を入れ替えた「父は、母が誕生日を忘れたので、怒っている。」という文を機械が翻訳するにあたって、機械は「誕生日を忘れて怒るのは普通女だから、この誕生日は『母の誕生日』ってことでいいでしょ」と言うことはできない。

正解の判定基準は人間にあるからだ。


これから言えるのは、人間の補助を必要としない機械翻訳ができるようになるのは、機械が人間のように考えることができるようになってからだということだ。

もちろん、ハードウェアは同じである必要はない。

ファミコンミニ*1を作るのにファミコンのCPUを載せる必要がないのと同じことだ。

しかし、ファミコンミニが「ファミコンと同じように考える」必要があるのと同じように、人間の補助を必要としない機械翻訳ソフトは、「人間と同じように考える」必要がある。

つまり、上に書いたような人間的な思考ができるようになる必要があるということだ。

だが、それができるようになるということは、もっといろいろなこと(いま人間にしかできないようなことのほとんど)ができるようになるということだろう。

それが実現できたら、インパクトはとても機械翻訳だけにはとどまらない。

それを考えるのはまだまだ先でいいはずだ。


Google翻訳がよくなったことは確かだ。

ものすごくよくなっている。

それについては各所で書かれている/今後も書かれると思う。

しかし、ぼくが言いたいのは、人間と同じように考えられる機械ができるまでは、人間の補助を必要としない機械翻訳はできないということだ。


これは機械翻訳を貶めるために言っているわけではない。

機械翻訳が役に立つ領域はこれまでよりはるかに広がるだろうし、それはいいことだ。

しかし、機械が人間のように思考できない間は、人間であればしないような間違いをし続けるだろうし、それを発見・修正するという仕事はあり続けるということだ。

その点で、(現時点でそうかはともかく)人間の介入の必要性がゼロになりうる自動運転やコンピュータ将棋とは違う。


この文を書いた動機のひとつとして、「Google翻訳がよくなったことで人工知能ペテン師(固有名詞)がはしゃぎそうだなぁ」と思ったからというのがある。

ここまで書いたように、言語の領域から人間が完全に必要なくなることは当面ないだろう。


しかし、その規模がどうなるかはわからない。

また、現在機械翻訳を補っているのは人間の翻訳家だが、コンピュータに足りないものは本質的に「人間的な思考」であるということを考えると、いつまでもそうであるかはわからない。


いつか、自分にわからない意味的な問題をクラウドソーシングで人間に聞きに行くようなソフトが出てきたりするかもしれない。

将来が楽しみだ。





*1:いま流行りのやつのほう。正式名称は別。

Wikipediaから人名(姓・名別、読みつき)を取り出す

小ネタです。

日本語Wikipediaから人名(姓・名別、読みつき)を取り出すスクリプトを書きました。


https://github.com/hiroshi-manabe/extract_jawp_names


日本語の処理をする際に、Wikipediaのデータを使うことは多いと思います。

いろいろと便利なWikipediaのデータですが、人名に関しては「姓と名が分かれていない」という問題があります。

まあ、本文の冒頭にはたいていスペース区切りで書かれたものがあるので、それを使えば切ることができます。

また、Wikipediaの記事名には読みがついていないという問題もあります。

これも、たいてい本文の冒頭でカッコ内に書いてあります。


ですので、大きな問題はないのですが、Wikipediaのデータは基本的に人が編集しているので、形式がけっこう自由です。

例えば、本文冒頭の記事名はたいてい太字で強調されているのですが、読みはそうである場合もそうでない場合もあります。

そのほかにもいろいろと細々とした問題があり、対応するのはけっこう面倒です。


そういったわけで、人名抽出スクリプトを書いたので公開します。

大した手間ではないのですが、同じことがあちこちで繰り返されると不毛なので。


読みの抽出には、記事中の「DEFAULTSORT」というデータを使っています。

これは、例えば「織田 信長(おだ のぶなが)」であれば「おた のふなか」、「勝 海舟(かつ かいしゅう)」であれば「かつ かいしゆう」のように、濁音や半濁音を清音に直し、小書き文字を大書き文字に直す等の処理をしたソート用のキーで、たいていの記事についています。

このキーを正規表現にして本文にマッチさせることで、かなり確実に読みを取得することができます。


出力結果は次のようになります(2016/02/03版)。

士郎 正宗	しろう まさむね
高橋 留美子	たかはし るみこ
村上 もとか	むらかみ もとか
青木 光恵	あおき みつえ
赤塚 不二夫	あかつか ふじお
一条 ゆかり	いちじょう ゆかり
うすた 京介	うすた きょうすけ
浦沢 直樹	うらさわ なおき
車田 正美	くるまだ まさみ
高橋 しん	たかはし しん
...


読みを取り出す処理自体は人名に限ったものではないので、Wikipedia記事一般に使えるはずですが、今回の個人的な目的は人名抽出だったため、一般の記事についてはテストしていません。

一般の記事に対してやってみたい人は自己責任でお願いします(気が向いたら fork してください)。

翻訳の退場勧告

SICPを訳し直したと、一年前の記事の善意のひどい訳についてに関して、はてな匿名ダイアリーのほうで言及していただきました。


翻訳は/誰がやっても/間違える (前編)

翻訳は/誰がやっても/間違える (後編)


誤訳の指摘ありがとうございます。

差し支えなければ追って反映したいと思いますが(反映について明示的に許可をいただければと思います)、まずはお礼を兼ねてお返事から。


また、タイトル575ありがとうございます。

77でお返しするのが礼儀かと思ったのですが、どうも思い浮かばず… 申し訳ありません。

ところで、匿名の方でお呼びしにくいので、増田*1という意味でMさんとお呼びしますね。


前もって申し上げますが、元記事にはごちゃごちゃした人間的な感情の絡む雑音的な部分も多いので、お返事できそうなところを自分でピックアップして回答しています。

「いや、ここも答えられるだろ」というところがあればご提示ください。


まず、訳文を見ていただけばわかるように、私は翻訳を専門的にやったことはありません。

最近になってやっと、有名な「英文翻訳術」を読んだところです。



そういう私が、「学生時代の専攻が英文学だったことから、翻訳の仕事や、翻訳の校正の仕事をたびたび引き受けてき」たという方から誤訳の指摘をいただけるというのはありがたいことです。(本来ならお金が発生するところではないでしょうか?)


ところで、降って湧いたように翻訳経験者から誤訳の指摘をいただけたわけですが、どうもおかしな人だなという感覚はあります。

というのは、このご指摘の前と後で、私の自分の英語力に対する認識は変わっていないからです。


私は英語の基本的な読み解きはできますが、翻訳の専門的な訓練を受けたことはなく、実力も当然その範囲内です。

Mさんは、私の誤訳を指摘することで「お前の翻訳は間違いだらけだ」と言いたいようですが、そりゃ経験者から見たら穴だらけでしょう(ご指摘の箇所は、特に前編はほぼその通りです。後編については、文脈を見て取捨選択することになりそうです)。

それともMさんは、私が(翻訳者としてのトレーニングも受けずに)自分のことを商業レベルの翻訳者だと思い込んでいると思ったのでしょうか?

それは並みの思い上がりじゃありませんよ。(もちろん、そんな思い上がりはしていません)


で、私の自分の英語力に対する認識は変わっていないので、以前から持っている「手のつけようのない翻訳をそうであると判断する程度のレベルはある」という認識も変わっていないわけです。

それとも、Mさんの意見では、この認識が間違っているということでしょうか?

私が手のつけようのない翻訳だと判断したものが、英語の上級者の視点から見ると全然そんなことはない、これこれこういう理由で優れている、私の指摘は間違っている、ということであれば、それは私にとっては revealing ですし、ぜひお聞きしたいところです。

「致命的な誤訳」「最低クラスの翻訳」「手のつけようのない何か」「身の程を知ってほしい」「そびえ立つクソの山」「腐った翻訳」「自作ポエム」「異世界語版」「有害」「腐臭を放つ吐瀉物の山」といった発言は、人間(真鍋さんの用語で、アスペルガーではないヒトのこと)の言語の運用においては、おそらく指摘ではなく侮辱、退場勧告として機能するでしょう。


Mさんにとっては、侮辱退場勧告は同じようなものなんでしょうか?

私にとっては、それらは全然別のものです。


退場勧告というのは、何かをするうえでの実力がないんじゃないかという意見を告げるものです。

また、いま実力がないということは、この先も実力がないままであるということを意味しません。

そういう意味で、私の発言が退場勧告として受け取られたとしても、それは私の意図に反するものではありません。

「英語の構文解析ができない人間は(それができないうちは)英文和訳をしてはいけない」というのが、一貫した私の意見です。

(私が訳を批判してきた方々はそれができていないという私の認識は変わっていません。これについても、上級者から見るとそうではないということであれば、そう主張していただければと思います)


それに対して、侮辱というのは基本的に必要のないものです。

私はこれまで、翻訳に対してクソの山だとかは言っても、○○氏はクソだという侮辱はしたことはありません。

まあ、「翻訳をクソだと言うと、それは自動的に訳者をクソだと言うことになる」とお考えなのであれば、それは考え方の違いということになります。

私はそう考えていません。

(私に対する誤訳指摘も侮辱だとは受け取っていません。そう認識させたいという痛いほどの努力は伝わってきますが)

ここの認識の違いがある人とは、永遠に平行線なんだろうなと思います。

(ところで、「腐臭を放つ吐瀉物の山」等のいくつかは、全世界に公開しているとはいえ、個人的なつぶやきです。「つぶやく」ことと「相手に向けて言う」こととの間にはまだ違いがあると私は認識しているのですが、Mさんにとってはそうではないのでしょうか?)

日本語訳を読んで、おかしいと思った箇所だけ原文を参照することにします。一般読者は翻訳の質を判断できないという――わたしの感覚からすると一般読者をずいぶん侮った――主張に対するひとつの反証になるかもしれません。


やだなぁ、もう。(呆れてキャラが変わった)

「学生時代の専攻が英文学だったことから、翻訳の仕事や、翻訳の校正の仕事をたびたび引き受けてき」た人が一般読者なわけがないじゃないですかぁ。

一般読者というのは、minghai氏版SICPのブクマ山口さんの翻訳記事のブクマのような人たちのことを言うんですよ。

私の指摘以前に、翻訳の質に言及している人、いますか?


一般読者は翻訳の質を判断できないからこそ、minghai氏版がずっと問題にもならずに検索上位に出ることになっていたわけじゃないですか。

私が「王様は裸だ」と言わなかったら、誰が代わりに言ってくれたんですか?

しかし、そのようなミスを犯す方が、他人のミスに対して次のような発言をするのであれば、そこには何らかの認知の歪みがあるということになってしまいます。


まあ、人間はミスを犯すものですし、ちょっとしたミスで実力を判断するのは正しいとは限りませんね。

ただ、Mさんが見つけた私のミスと、私が見つけた山口さんのミスは、(当然ながら)別のものです。

私は、その手がかりから「この翻訳は手がつけようがない」と推測して、結果としてそれは(私としては)当たっていたと思っています。

Mさんは、私のミスを見て、「この翻訳は手がつけようがない」と推測されたのでしょうか。

また、それは当たっていたでしょうか。


最後に。

まず、真鍋さんがなぜそれほど憤っているのか。翻訳には言語に関する才能と一定の経験が必要で、十分な品質に達していない翻訳は有料・無料を問わず世に溢れています。それは自明であるにも関わらず、なぜことさら嘆いてみせるのだろう? 一般の人はそのことに気づいていないとでもいうのだろうか?


「嘆いてみせ」ているのではなく、「嘆いている」のです。

十分な品質に達していない翻訳があふれている状況を、自明なものだとあきらめていないからです。


「翻訳には言語に関する才能と一定の経験が必要」とはいえ、そういう才能と経験を持った(Mさんのような)人はいくらでもいるわけです。

それなのに、なぜ英語の構文解析すらできない(私よりもさらにできない)人間が翻訳をしているのか。

なぜ「統計学を拓いた異才たち」のような本が世に出てしまうのか?


英語の「翻訳術」の良し悪しは、単純に評価できるようなものではありません。

しかし、英語の構文解析を間違っているような、翻訳以前の間違いであれば、英語の読める人なら誰が見ても——もちろん、Mさんが見ても——わかるはずです。

それなのに、なぜそういう翻訳以前の間違いだらけの「翻訳」が、有料無料を問わず生き延びているのでしょうか?


私から見ると、そういう状況を支える要因のひとつとして、「人間」——Mさんのような——の遠慮があるように思えます。

明らかな間違いがあっても、相手への配慮のために、「なかったことに」してしまう。

その結果が、いまの悲惨な状況なのではないでしょうか?


私は、たとえ自分自身の英語の実力が完璧ではなくても(もちろん完璧ではありませんし、その認識は変わっていません)、致命的な誤訳について「致命的な誤訳である」と声を上げることを続けていくつもりです。


*1:アノニ“マスダ”イアリーの通称。