ぼくはこうやって(8年前)Googleに入った

入って1年ちょっとで辞めたぼくだが、流れに乗って書いてみる。


正直なところ、ぼくが書く意味はないと思った。

「どうやって」という話になると「入社試験を受けたら入れた」ということになるし、それはもう他の人が書いているからだ。


しかし、他の人の記事を見ているうちに、これならぼくが書けば違った視点からの記事が書けるんじゃないかと思った。

テーマは「光と影」。


ぼくの生い立ちを少し語る。

両親は京大卒。

父親は大学教授(最終的に)。

母親はぼくが2歳のときに統合失調症を発症、17歳のときに自殺。

子供は姉(2歳年上)とぼくの二人。


母親が統合失調症で病院に出たり入ったりしていたため、ぼくは家で姉と二人になることが多く、壮絶にいじめられた。

自閉的傾向が強かったぼくは、姉からしたら気持ち悪い存在だったんだろう。

その当時(ぼくは1974年生まれ)は自閉症なんて知られていなかった。


ぼくはどこからどう見ても問題児だった。

気に入らないことがあると泣きわめいたり、学校の教室でコンパスを投げたり、塾(日能研)でからかわれて激昂してガラスのドアを足で割ったりしたことを覚えている。


日能研には小5のころから通っていたが、ぼくはろくに勉強していなかった。

一番前の席(成績順だった)でノートに「しかくいち」(囲み文字)を立体的に描いていたら、先生に「お前何のためにここに来ているんだ」と言われたというエピソードがある。


しかし、成績はよかった。

実力テストのたびに全国○位とかになって、賞状と賞品(鉛筆やノート)をもらったりしていた。


中学校は関東の私立の中高一貫校に通った。

定期テストの成績はそれなりだったが、実力テストではだいたい順位が上位5%ぐらいには入っていた。

しかし、一回古文の先生に「こういうやつは高校で失速するんだ」的なことを言われたのがやけに印象に残っている。


高校からは関西に引っ越すことになり、公立校に入った。

入学一発目のテストで偏差値90を取った。

(これは私立中学のカリキュラムが進んでいたというのもあるだろう)


勉強する習慣はつかないままで、古文の先生の予言通り、成績は少しずつ失速していった。

大学受験は、前期は京大理学部、後期は工学部の情報工学科。

前期は落ちたが、後期はセンター(だいぶよかった)の配点が大きかったこともあって、何とか引っかかった。


しかし、京大は1年で中退。

大学に入ってからも勉強するものだとは思っていなかった(それ以前もしていなかったが)ぼくは、理系の大学という当たり前に勉強が求められる環境で一瞬で脱落してしまった。

古文の先生の予言が的中したようなものだが、大学入学後になるとは…。


京大ではろくに授業に出なくなっていたが、語学の授業だけは出ていた。

それで、大阪外大(当時)を受け直すことにした。

成績的に落ちるはずがなかったので、対策なしで(京大のときは対策していたのか?)受けて、受かって、入った。


大阪外大では中国語を専攻*1し、1年が終わってから中国に留学した。

ルームメイトを始め韓国人が多くいたので、中国語以外にも、高校のころちょっと勉強していた韓国語もだいぶうまくなって帰って来た。


外大では、3年の終わりあたりで精神の状態を悪くして1年休学した。

この時期には自殺を考えたこともある。

また、レポートがどうしても書けないという問題があって単位が足りず、1年留年した。

1浪1留(学)1休1留(年)という4年遅れで卒業した。


就職活動はろくにできていなくて、卒業してもしばらくは無職だった。

8月になってやっと、中韓語とプログラミングが生かせる小さな会社があったので、そこに応募して、入れることになった。


プログラミングは中3のころからやっていた。

MSX2というパソコンで、雑誌に載っていたゲームのソースを入力しつつプログラミングに触れ、当時流行っていたテトリスを実装することで身につけた。

アーケード並みの速度にしようとするとマシン語に触れる必要があり、そのことが後々役に立った。

その時期の話はここ


小さな会社では5年ほど勤めて、飽きたので気分転換に辞めることにした。

1年半ほどぶらぶらして、そこから急に思い立って大学院に入ることにした。

会社では自然言語処理っぽいことをしていたが、何の基礎もなかったからだ。


元の小さな会社でアルバイトとして勤務しつつ、受験勉強をした。

特に「オートマトン 言語理論 計算論 I」という本は面白かった。



考えてみると、意識的に勉強したのはこれが初めてだった。

勉強することによってわからなかったことがわかるようになる体験をして感動した。

それまでは、わかること・わからないことというのはあらかじめ決まっているようなイメージだった。


大学院は、京大とNAISTに受かり、京大に行くことにした。


京大では、計算量理論などの授業が面白かった。

勉強する習慣が少しついていたので、アルゴリズムイントロダクションの独習をしたりもした。



同級生(といっても12歳も下だったが)が就活していたので、35歳のぼくも新卒みたいな顔をして就活をしてみた。

といっても、就活力(人間力)がどうしようもなく不足していたので、書類で応募したのが3社で、面接に進めたのが2社だった。

その中の1社がGoogle

全落ちしたら元の会社に出戻る予定だった。


Googleの面接は、コンピューターサイエンスのセンス(≒知能)を問うようなものばかりだった。

ぼくはそれなりに答えられて、それなりに手応えがあった。

といっても、合否ラインは倍率次第だから安心はできなかった。

合格の電話がかかってきたときには、さすがにテンションがかなり上がった。


しかし、入ってわずか一年ちょっとで、適応できずに辞めてしまうことになる。

退職エントリにはかっこいいことも書いたが、それは一面だ。

もう一面は、Googleの「光属性」に耐えられなかったというものだ。


まともな入社エントリを書くようなGoogleの人間は、「自分は頑張ったからGoogleに入れた、みんなも頑張ったらGoogleに入れるよ」的なことを言っていたりする。

気持ち悪い。

ぼくがGoogleに入れたのは、遺伝子のおかげじゃなかったら何なんだ?



Googleに入るような人間がそういう考えになるのもわからないこともない。

知能以外にも能力のバランスの取れている彼らは、だいたい同じような知能の人間に囲まれて育ってきているんだろう。

「(東大の同級生の)みんなも頑張ったらGoogleに入れるよ」と補完したら、特に不自然なことはないのかもしれない。


でも、ぼくはいろいろ問題が多い人間なので、そういう均質なグループには属せない。

だから、ぼくはそういう考え方はできないんだと思う。


まあ、Googleの人間がそういう考え方をしていても別にいいんだけど、ぼくはそういう光の領域にはいられない。

その領域では、人間はみんな平等に生まれて、頑張った人が報われるもので、頑張れてる自分たちが他の人も頑張れるように助けてあげよう、という感じなんだろう。


ぼくは生まれながらにして影の領域の住人だ。

そこでは、人間は自閉症だったり、双極性障害だったり、統合失調症だったりする。

脳内伝達物質の不調で過眠や過食だったり、自傷行為や自殺未遂をしたり、引きこもったりする。

精神科に行っても、いい薬がなかったり、効くと思った薬が副作用のせいで続けられなかったりする。

そういう領域にいると、光の領域の住人が「頑張れば○○できるよ」とお気軽に言っているのを聞いても、ケッとしか思えない。


努力を否定するわけではない。

例えば、自転車に乗りたいと思っている人が頑張って自転車に乗れるようになるといったことは、とてもいいことだと思う。

これは、「できなかったことができるようになる」という意味でのいいことだ。


しかし、もう一段階メタに考えると、もっといいのは「『できなかったことができるようになる』ことができるようになる」ということだ。

日常的に、「自分にはできないと思っていたことにトライして成功する」ということができるようになるということ。

そのためには、ちょっとした成功体験を積み重ねるのがいい。

そうしようと思うと、「自分には何があとちょっとで手が届きそうか」ということを見極める力が必要だ。


そういうときに、「みんなも頑張ったらGoogleに入れるよ」みたいなのはノイズでしかない。

高知能人間を集めようとあらゆる手を尽くしているくせに、よく臆面もなくそんなことが言えるなと思う。

数から言っても、東大(1年に3000人も入る)よりもずっと狭き門だ。

もっとも、できるだけ多くの高知能人間を集めるためには、誰にも諦めさせないで取り漏らしをなくすというのが合理的なのだろうが。


ポジティブでいるためには「人間は誰でも何にでもなれる」という嘘を信じる必要があるのか?

ぼくはそうは思わない。



ぼくは、一部のGooglerのような底抜けのポジティブさは持てない。

それどころか、生きるのがつらくて、死にたいとしょっちゅう思っている。

それでも、生きている間は、少しでもできることを増やしたり、また他の人ができることを増やすのを手伝ったりしたい。

そういう意味ではポジティブでありたい。


最後に、ぼくの好きな「シーラという子」という本から引用する。

夕方のニュースをつけて、どこか遠くで起こった目新しい派手な出来事を聞いている間に、私たちは自分たちの間で演じられている実にリアルなドラマを見逃してしまっている。どんな外の出来事よりもすばらしい勇気あることがすぐそばで行なわれているというのに、残念なことだ。子供たちの中には、ひとつひとつの動作をするたびに、いわれのない恐怖に襲われるという悪夢で頭がいっぱいの子供がいる。…それでも彼らはなんとかがんばっている。ほとんどの場合、他にどうすることもできずにそういう状況を受け入れている。


*1:これは「専攻語」で、学科は国際文化学科とかいうやつだったが。

表現規制についての思考実験

あなたは「表現の自由はすべてに優先される、ゾーニングは必要ない」という考えの持ち主だろうか。

そうであれば、「2 Girls 1 Cup」というビデオを検索して、それを最後まで見てほしい。

(閲覧注意の動画なので、信念のある人以外にはお勧めしない)


「2 Girls 1 Cup」というのは、有名なスカトロ動画だ。

我々は普段、そのような動画を目にする機会がない。

なぜだろうか?

それは何よりも、そのような動画を好きな人間が圧倒的少数であるということによる。


ここで思考実験をしてみよう。


ある日突然、人類が変なウィルスに冒されて——あるいは宇宙人に脳を改造されて——理由は何でもいいが、人類の半数がどうしようもないスカトロ好きになってしまったとする。

そうするとどうなるか。

メディアには大量にスカトロ動画があふれ出す。

ウンコを恍惚の表情で食べている表紙の雑誌が店頭に並び出す。

半数というのは大きなマーケットなので、そうなることは目に見えている。


しかし、この状況は「旧人」にとってはたまったものではない。

すぐにゾーニングを求める意見が噴出するだろう。

しばらくして法律が整えられ、スカトロ物はゾーニングされたエリアでしか買えないようになる。

アニメにはなぜかカレーを食べるシーンがやたらと増えたような気がするし、その理由もだいたい皆察しているが、まあその程度はしょうがない。


また別の思考実験。


ある日突然、(略)人類の半数がサメにどうしようもない恐怖を感じるようになってしまったとする。

サメの画像を見るだけでPTSDのような症状が現れる。

もちろん、ジョーズのパッケージなんて論外だ。


そういうわけで、今や世界の半数を占める「新人」たちの力で、サメ物のゾーニングが進められる。

サメ映画を見ようと思うと、「この先には敏感なコンテンツがあります」という画面を通らないといけない。

旧人」はぶつぶつ言いながらもその状況を受け入れる。


さて、これらの思考実験で、「新人」がそれぞれ一人だったらどうだろうか。

スカトロ好きの一人と、サメにトラウマのある一人。

前者は自分の愛するコンテンツを公共の場で発表したら袋叩きに遭うし、後者はサメの画像が目に入らないようにビクビクしながら生きるしかない。

現状のゾーニングが揺らぐことはない。


ここで言いたいのは、「数は重要だ」ということ。

ゾーニング——というより表現規制一般——は、常に多数派(過半数という意味ではなく、ある程度以上の発言権を持つ集団)同士の調整のためのものであったし、今後もそうであり続けるだろう。

それは善悪や理念というよりも、力学のようなものだ。


表現規制の話になると、宗教的に自分の考えの正しさを信じる人間がわらわら出てくるが、そもそもそんな絶対の正義などは存在しない。

完全に表現規制の廃絶を主張できるのは、「2 Girls 1 Cup」の動画を見ながらカレーを食べられる人間ぐらいだろう。

結局のところ、「スカトロ動画を昼間放送して何が悪いんだ」「サメ映画なんて怖いものをよく公共の場に置いておけるな」的に、自分の快不快を(必要に応じて仲間と連帯しながら)訴えていって、力関係で勝った集団が好きなものを公共に流し、力関係で負けた集団が公共の場で不快なものを目にするという、それだけのことだ。

もちろん、現状だってそうなっているから、テレビにスカトロや性交シーンが出てきたりはしない。

多数派のための表現規制のおかげだ。


表現規制の基準は、これまでにも大きく変わっている。

感性は変わるものだからだ。


例えば、昔「チャタレー事件」で「チャタレイ夫人の恋人」が猥褻だと認定されたのは、当時の多数派にとってそれが猥褻だったからだろう。

昔の人間が愚かだったからではない。


ここでまた思考実験をして、未来では恋愛ドラマでは無修正の性交シーンがテレビに出てくるとしよう。

現代人が未来人に「どうしてあなたの時代の恋愛ドラマには性交シーンが出てこないのですか? あなたの時代にも恋人たちは性交をしていたでしょう」と聞かれたら何と答えるのがいいだろうか。

答えは、「我々の時代の人にとってそれは刺激的すぎるから」となるだろう。

「我々は未来のあなたたちより愚かだから」ではないし、ましてや「我々にとっては表現の自由は重要ではないから」ではない。


ところで、ゾーニングというのは「たかが技術的な問題」でもある。

例えば、人間がすべてARメガネなりARコンタクトなりをつけて生活していて、「性レベル*1」のフィルタを設定することによって、設定したレベル以上の性コンテンツは目に入らないようにできるとしたら、各人が自主的にゾーニングできることになる。

このゾーニングに反対する人はあまりいないだろう。


結局のところ、ゾーニング表現規制というのは、それぞれ違った感性を持った人間たちが、この基底現実という世界を共有していることから起こる問題だということだ。

もちろん、人類が基底現実を離れられたら問題は自動的に解決するのだが、それまでの短い間は何とかすり合わせをしながら生きるしかない。

感性が違う以上は闘争になることは避けられないとはいえ、最低限、「自分と違う感性を持った人がいる」ということを頭に入れながら、泥臭く妥協点を探していくしかないんじゃないだろうか。


いま多数派の人だって、いつ少数派になるかわからない。

最初の思考実験では、人類の「半分」がスカトロ好きになるという設定だったが、これが「99%」で、あなたが1%の旧人だったら、あなたはどうするだろうか。

たとえ自分が少数派でも、スカトロコンテンツを見ないで生きる権利を求めて必死で戦うんじゃないだろうか?

まあ、それは1%でも仲間がいればの話だが。

もしスカトロ好きになったのがあなた以外の人類全員だったとしたら、どうだろうか。

そういうことを想像しながらゾーニング表現規制について考えるのも悪くないと思う。


ぼくは「2 Girls 1 Cup」の動画を見ながらカレーを食べられる*2タイプの人間なのだが、岡目八目ということもあるので、この問題について半分部外者*3の立場から書いてみた。

ちなみに、この動画を知ったのは「反共感論」という本に出てきたから。

おすすめ。

*1:性レベルは何らかの手段でユーザーからのフィードバックを得るとする。

*2:一応やってみた。

*3:見たくないものを見せられることはないが、見たいものが堂々と見られなくなることはあるので、完全に部外者ではない。

ドヌーヴ「女性を口説く権利」誤訳指摘

(2018/01/12 15:44 追記)「カトリーヌ・ドヌーヴを含め100人の女性が主張したこと」というよりよい翻訳が出ていて、そちらにはここで指摘したような問題はありません。そちらを読むことをお勧めします。




ドヌーヴ「女性を口説く権利」 全訳ですが、ブコメにもあるように誤訳があり、中には大きなものもあるので、限られたフランス語力ではありますが、指摘しておきます。指摘に間違いがあれば再指摘をお願いします。



性暴力は重大犯罪だ。(Le viol est un crime.)

"viol"は「レイプ」です。

ナンパはしつこかったり不器用だったりしても犯罪ではないが、そのことがマッチョの侵害行為を保証することにはならない。(Mais la drague insistante ou maladroite n’est pas un délit, ni la galanterie une agression machiste)

まず、"galanterie"を"garantie"(保証)と間違えていますね。"galanterie"は日本語に訳すのが難しい単語ですが、「男性の女性に対する親切(往々にして下心あり)」的なものです。また、後半は"est"が省略されています。直訳すると、「しつこい/不器用なナンパは犯罪ではなく、女性への親切もマッチョの攻撃ではない」です。

いわゆる普遍の名の下で (au nom d’un prétendu bien général)

"général"は"prétendubien"を修飾しています。「…という一般的な建前でいわゆる公益の名のもとに」という感じでいいんじゃないでしょうか。*1

「豚野郎」たちを屠殺場へ送り込むこの熱狂だが…

この段落は構文が取れていませんね。原文を残しつつ訳し直すと、次のようになります。

「豚野郎」たちを屠殺場へ送り込むこの熱狂だが、女性が自立することを手助けするには程遠かった。 実際には、これで得するのは、性の自由の敵、宗教的過激主義者、最悪の反動主義者、また本質的な善という概念とヴィクトリア朝のモラルという名の下に、女性は「別扱い」の存在で、保護してくれと要求する大人の顔をした子供であると考える人たちだ。

スイスで提出されている法案 (un projet de loi en Suède)

ブコメで指摘がありますが、「スウェーデン」です。

さらにご苦労なことがある。二人の成人が一緒に寝たいと思ったら、携帯のアプリを使って、あらかじめ正式なリストのチェック欄を見て、やりりたいこととやりたくないことに印をつけなければならないというのだ!(Encore un effort et deux adultes qui auront envie de coucher ensemble devront au préalable cocher via une « appli » de leur téléphone un document dans lequel les pratiques qu’ils acceptent et celles qu’ils refusent seront dûment listées)

これは致命的なミスです。"Encore un effort et ..."というのは、「この調子でいけばあとちょっとで」という意味です。「この調子でいけば、…ということになるだろう」ということで、法案がそうだというわけではありません。

トラウマを植え付けられたと感じる必要はない(原文略)

"à jamais"(永遠に)が落ちています。

評判だおれ (non-événement)

よくわからない訳語の選択です。「たいしたことのないこと」あたりでいいでしょう。

力の乱用を超えて (au-delà de la dénonciation des abus de pouvoir)

"dénonciation"(糾弾)が抜けています。「力の乱用に対する糾弾を超えて」です。

たとえそれが辛く、生涯残る傷を残すものだったとしても、身体を傷つけられる事故にあった女性は尊厳を傷つけられないし、傷つけられるべきでもない。(Les accidents qui peuvent toucher le corps d’une femme n’atteignent pas nécessairement sa dignité et ne doivent pas, si durs soient-ils parfois, nécessairement faire d’elle une victime perpétuelle.)

全体的にちょっとよくないので訳し直します。

女性が事故によって体を傷つけられたとしても、それは必ずしも尊厳を傷つけられたことを意味せず、またそれらの事故は時にはとてもつらいものであるが、それでも事故に遭った女性を永遠の被害者にするようなことがあってはならない。




誤訳指摘はここまでです。とても読みにくいと思うので、本文に反映してもらえたらと思うのですが、それは元の書き手次第ですね。


ここから少し、なぜこの誤訳指摘をしたかについて書きたいと思います。興味のある方だけどうぞ。


ネット上での出来事に詳しい人なら覚えているかもしれませんが、私はこれまで、「善意のひどい訳について」、「腐った翻訳に対する態度について」といった記事で、ひどい翻訳を糾弾してきました(後者の件では、結局非公式PDF版SICP・新訳として自分で訳し直しています)。

これで人を萎縮させるつもりはなかったのですが、残念ながらそのように受け取られたかもしれません。この前、TLで次のようなツイートを見ました。




「誤訳のある翻訳をするとすごい叩かれる」という恐れができているとしたら、それは残念なことです。

では、なぜ上記の記事では翻訳を徹底的に糾弾したのか。

それは、それらの翻訳が本当に、例外的にひどかったからです。

構文という概念がなく、拾った単語を適当にくっつけているとしか思えない、翻訳と称する何か。

どうしてこんなことになったんだ? という思いから、また「この翻訳を信用してはいけない」という警告の意味も込めて、そのような強い言い方になりました。


今回の翻訳は、まあ普通レベルです。

すべてを一から翻訳し直さなければいけないほどの惨憺たる翻訳というわけではなく、この翻訳のおかげで大意が取れて助かっている人もいるでしょう。

訳した人はそれなりにフランス語ができる人で、自分でもレベルを把握しているのではないでしょうか。

そういう人に強い言葉を使う必要はありません。


本来、こちらのほうが当たり前です。

全体としてそれなりの訳文の中にいくつかの間違いがあれば、それを指摘して、それでおしまいです。

私はそういうこともしています。

ただ、そういうのは目立たないので、人目に触れるのはどうしても「マサカリ」だけになってしまいます。

それによって「翻訳を出すとボコボコにされる」というイメージがつくのは残念なので、今回は「普通の誤訳指摘」を公開でしてみました。

(もちろん、誤訳を直すことで役に立てればという気持ちもあり、ついでにアフィでも貼ろうとかいう気持ちもあります)


また、結果的にマサカリを投げることになった相手も、必ずしもずっとそうであるとは限りません。

善意のひどい訳について」でマサカリを投げた相手のid:ymotongpooさんは、その後「Go 2にむけて」という翻訳記事を出しています。

やはり構文を取るのが弱いところはあるのですが、それでも全体としてはそれなりに訳せていました。間違っているところは、修正のプルリクエストを二回(#2#8)出して、取り入れてもらいました。


そういうわけで、翻訳を出しても「よっぽど」でなければ(少なくとも私に)叩かれることはないこと、また仮に「よっぽど」な翻訳を出してしまったとしても、投げられるマサカリは人に対するものではなく訳文に対するものなので、それを糧にしてほしいということ、というのが言いたかったことです。また、自分の翻訳が「よっぽど」かどうかに自信がなければ周囲の人に見てもらうというのもいいと思いますし、何なら私もお手伝いします。

どんどん翻訳していきましょう。


最後に、フランス語のおすすめ教材を貼ります。


フランス語リアルフレーズBOOK」は、砕けた言い方が多く収録されていて、表現の幅が広がります。


現地収録! フランス語でめぐるPARIS」は、フランスでの日常会話をそのまま収録したような本で、リスニングの練習にいいでしょう。

*1:ブコメで指摘があり修正しました。ありがとうございます。

iOSの謎の単語と、それにまつわるデマ

(2018/01/15 追記) いつの間にか削除されていたようです。iOS 11.2.2で候補から消えていることを確認しました。

iOSで「レイプ」と入力しようとすると、変な候補が出てきます。



レイプアールサァン

いったいこれは何でしょうか。


「レイプアールサァン」でGoogle検索をすると、知恵袋が見つかり、その中で次のような回答がされています。

一つの可能性としては、変換辞書の盗用防止があります。

もし「レイプアールサァン」が変換できたら、それはiOSの辞書の盗用だということになります。


なるほど、それっぽいですね…。

それが完全なデマだということを除けばね!


では、この「レイプアールサァン」とは何なのか?

キーとなる人物は、ツイッターの「たいぷあーる」(@HONDA_TYPER)氏です。



今でもバリバリ活動している人なので、こうやって取り上げるのは気が進まないのですが、デマがとめどなく繁殖してしまうのを見かねたので記事にしました。


まず、このたいぷあーる氏ですが、友人には「タイプアールサァン」と呼ばれていました。



名前から考えて不思議ではありませんね。


で、この人は「レイプアールサァン」とも呼ばれています*1



レイプにまつわる何かの内輪ネタがあったんでしょう*2

これらのツイートは2011年のもので、時期的に、iOSの辞書の話題が出るよりはるかに先のことです。

また、元の名前という文脈もあるので、こちらが先であることは確実でしょう。


それにしても、こんなあだ名がなぜiOSの辞書に拾われたのでしょうか。

次のツイートがヒントになるかと思います。



これ、Foursquareですよね。

悪ノリして、自分の住所を「レイプアールサァン」として登録したんだと思います。

これは、iOSの辞書を作る際にクローラが拾ってしまっても無理はないですね。

もちろん、いろいろフィルタリングに力を入れているとは思いますが、数百万もある辞書エントリのうちのひとつなので、チェックが漏れてしまったんだと思います。


ちなみに、本人の反応はこちらです。



さて、この記事を書くに至った経緯ですが。


眞踏珈琲店公式」という、フォロワー2万超えの有名アカウントが次のようなツイートをしたことによります。



この「レイプアールサァン」、「レイプ」が性的な用語ということで下に追いやられて、結果として上のほうに出てくることが多いんですよね。

このアカウントも、検索の結果、上記の知恵袋にたどり着いていました。



もちろん、これはデマです。

それで、私が調べたことを簡単に伝えました。



すると、次のような反応でした。



という説」というところが気になりました。

こちらには鉄壁の証拠があるのに、諸説のひとつ扱いになってしまう。


iOSの日本語入力辞書の1エントリの問題とはいえ、デマが堂々と通用している現状に歯がゆさを覚えたので、こうして記事として記録に残しておくことにしたというわけです。

デマと言っても、該当知恵袋を書いた人は「一つの可能性」と明言しています。

それが引用されるうちに「説」としての信用性を獲得していく…。

多くのデマは、こういう過程を経て広がっていくんでしょうね。

*1:ところで、「レイプアールサァン」のほうが時期が先ですね。実際にこちらのほうが先なのかもしれませんし、「タイプアールサァン」と言い始めた人のアカウントが消えているとかかもしれません。

*2:もちろん、レイプをしたわけではないとは思います。

青春→鯖鰆みたいなやつ

今日、こんなツイートを見かけました。



ぼくもこういうのは大好きです。

(社会に適応できているかどうかは微妙なところです)

それで、こういうのを探してみることにしました。


漢字の構造については、漢字構造情報データベース(CHISE)というものがあります。

(かなりの労力がかかっていると思われるデータベースです。作られた方に感謝します。)

今回は、これを使わせていただきます。

% git clone http://git.chise.org/git/chise/ids.git


この中の IDS-UCS-Basic.txt が CJK 統合漢字のファイル、IDS-UCS-Ext-A.txt が CJK 統合漢字拡張 A のようです。

表示できない文字ばかり出ても面白くないので、今回はこの二つだけを使うことにします。


それと、元ツイートで言う「青春」のような、加工元の単語が必要です。

今回は、Wikipedia のタイトルを使うことにします。

% curl -LO https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles.gz
% gunzip jawiki-latest-all-titles.gz


後は、簡単な Perlワンライナー(1行スクリプト)で、加工元の単語それぞれについて、「すべての文字に共通の部品を足すことができるもの」を探すだけです。

% perl -Mutf8 -CSD -F/\\t/ -nale 'if (@ARGV) { next if $F[2] =~ s{(\p{Han})}{$1}g < 2; for $i(0..length($F[2])-1) { $ch = substr($F[2], $i, 1); if ($ch =~ m{\p{Han}}) { $dict{$ch}->{substr($F[2], 0, $i).".".substr($F[2], $i+1)} = $F[1]; } } } else { next unless $F[1] =~  m{^(\p{Han}{2,})$}; %n=(); @n{split//, $F[1]}=(); next unless keys(%n)==length($F[1]); %t = (); while ($F[1] =~ m{(\p{Han})}g) { for $key(keys %{$dict{$1}}) { $t{$key}++; } } for $key(keys %t) { ($k=$key) =~ s{\P{Han}}{}g; $s=join("", map { $dict{$_}{$key}; } split(//, $F[1])); print "$F[1]+$k=$s" if $t{$key} == length($F[1]) and not exists $e{$F[1].$s}; $e{$F[1].$s} = (); } }' ids/IDS-UCS-Basic.txt ids/IDS-UCS-Ext-A.txt jawiki-latest-all-titles > list.txt


できたファイルはgistに置いてあります。

16万行もあるので見るのはちょっと大変です。


この中から、面白そうなものを見てみることにしましょう。

まずは、一番長いものです。

% perl -Mutf8 -CSD -nle '$dict{$_}=(); END { print for sort {length($b)<=>length($a)} keys %dict; }' list.txt | head


一番長いものは9文字でした。

世田谷区教育委員会+⺡=泄沺浴沤漖淯涹溳浍
連合国軍最高司令官+木=槤㭘椢楎樶槁柌柃棺
国土交通省大臣官房+木=椢杜校樋㮐杕栕棺椖


「世田谷区教育委員会」、全部さんずいがつけられるんですね。


次に、足す部品ごとに、一番長いものを探してみます。

% perl -Mutf8 -CSD -nle '@F=split/[\+=]/; $dict{$F[1]}=$_ if length($_) > length($dict{$F[1]}); END { print $dict{$_} for sort keys %dict; }' list.txt


いくつか拾うと、次のような感じです。

喜多見不動堂+⺖=憘恀悓怀慟憆
共産主義者同盟+⺘=拱摌拄㩘㨋挏擝
青少年委員会+⺼=腈䏚脌腇䐣脍
企業年金連合会+口=㖉㗼哖唫嗹哈哙
喜多見不動尊+火=熺㶴䙺炋㷲燇
風林火陰山雷+疒=瘋痳疢癊疝癗
連邦取引委員会+糹=縺綁緅紖緌縜絵
原子力安全委員会+艹=蒝芓艻荌荃萎蒷荟
世界長者番付+言=詍䛺䛫諸譒詂
月火水木金土+門=閒焛閖閑䦦䦌
人皇帝時代+魚=鯶魜鰉䱱鰣鮘
公民身分番号+鳥=䲲鴖鵢鳻鷭鴞


Wikipedia に「日月火水木金土」という記事はないようですが、「間」があるので「間閒焛閖閑䦦䦌」と揃いますね)


ほかに、よく出てくる単語についても見てみます。

Wikipedia でリンクが張られている数が多いもの順にリストを作ります。

% curl -Ls https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 | bzcat | head -n 1000000 | perl -Mutf8 -CSD -nle '$dict{$1}++ while m{\[\[(\p{Han}{2,})\]\]}g; END { print for sort { $dict{$b}<=>$dict{$a} } keys %dict; }' > frequent.txt
% perl -Mutf8 -CSD -nle 'if (@ARGV) { m{^(\p{Han}+)}; $dict{$1}->{$_}=(); } else { print for keys %{$dict{$_}}; }' list.txt frequent.txt > frequent_plus.txt


目視でいくつか拾ってみました。

大久保利通+木=杕杦椺梸樋
足利尊氏+⺡=浞浰澊汦
日清食品+艹=䒤蔳䓹䓵
武田信玄+女=娬㚼㜃妶
吉本新喜劇+口=咭呠噺嘻㘌
小林多喜二+亻=仦㑣侈僖仁
長宗我部元親+艹=萇萗莪蔀芫藽


最後に、この記事を公開するにあたって、はてなダイアリーEUC-JP なので、EUC-JP で表せない漢字を実体参照にしました。

% perl -Mutf8 -MEncode -CSD -i.bak -ple 's{(\p{Han})}{ Encode::encode("shiftjis", $1) eq "?" ? sprintf("&#%d;", ord($1)) : $1; }ge;' draft.txt

*1


やっぱり、こういうちょっとしたテキスト処理には Perlワンライナーが便利です。

awksed やるぐらいなら Perl おすすめですよ!

ツイッターでぼくの言いたいことを言ってくれている人がいたので、ツイートを貼っておきます。





紹介されているミニマル Perl、ぼくは読んだことがないので読んでみたいのですが、中古しかないのが残念です。



ところで、漢字に部首をつけるのが何の役に立つかを考えたのですが、検閲のある SNS などでヤバい単語を書くのにいいかもしれません。

リストを見ると、

本番行為+⺡=泍潘洐溈
本番行為+⺮=笨䉒筕䈧
本番行為+艹=苯蕃荇蒍


なんてのがありました。(ろくでもない)

*1:なぜ "shiftjis" にしているかは面倒なので略。

適当に情報を消費する人たち(Amazon Dash Buttonについて)

Amazon Dash Buttonは何がヤバイのかという記事が最近バズっていましたね。


この記事の中で、「電池の寿命が1年」というのがキーのひとつになっているというところはいいですよね?

また、1年ごとに電池が切れるのもえげつない。

1年で電池が切れるからこそ、Amazonプラットフォームが広告市場として成立するのだ。
Amazon Dash Buttonによって、広告費の投入先がテレビCMから、Amazonプラットフォーム上に移動したのだ。

(強調は引用者)


ところで、"Amazon dash battery"といったキーワードで英語版のGoogleで検索すると、次の記事が出てきます。*1


Amazon Dash Button Teardown

This means the ~1200 mAh battery should be able to power the device for at least four hours while on and decades while in sleep. Since the button is only on for a few seconds when activated, it can probably be used close to 1000 times before the battery dies. Thus, the button should become obsolete long before the battery is depleted.

(つまり、~1200 mAhの電池はオンの状態で最低4時間、スリープ状態で数十年間給電できるはずだということになる。ボタンはアクティベートされたときに数秒間しかオンにならないので、電池が切れるまで1000回近く使えるだろう。そういうわけで、電池が切れるずっと前にボタン自体が必要なくなっているはずだ。)


実際に"decades"(数十年)持つかどうかはともかく、5年でも持つなら、話は全然変わってきますよね。

この記事が正しければ、元記事の「電池の寿命が1年」というのが見当違いであるという点について、問題ないですよね?*2


さて、もうひとつポイントを押さえておきます。


英語圏で最初に出た製品について情報を得るのに、まず英語で検索するというのは、基本中の基本である。


これは私の意見なのですが、みなさんはいかがでしょうか。

よって、私には、現状が次のように見えています。


キーとなる情報について、基本中の基本といえるような調査が行われておらず、結果として考察が見当違いになっている記事に、2480ブクマ(はてなブックマーク)もついている。


いや、ネット上の情報が玉石混淆だという点については非常に今さらなんですけどね。

これだけの人数がいて、「おかしい」と思う人がほとんどいないというのはどうなんでしょうね。

目から鱗が落ちたという人がブコメにたくさんいますが、頭大丈夫ですか?


*1:これは旧バージョンについてのものです。新バージョンはこちら

*2:新バージョンではさらに電力消費が抑えられているのでなおさらです。

ドイツ語分割

ドイツ語分割スクリプトを作りました。

デモはこちら。

German Word Decomposer Demo

上のテキストエリアに例えば"Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz"と入れると、下のテキストエリアに"Rindfleisch-Etikettierungs-Überwachungs-Aufgaben-Übertragungs-Gesetz"となって出てきます。

レポジトリはこちらです。

https://github.com/hiroshi-manabe/german-word-splitter


新旧正書法に対応しています。

正書法では、例えば"Schiffahrt"は"Schiff-Fahrt"になります。

何をもって分割単位とするかは難しいところなのですが、"Bahnhof"(駅)や"Krankenhaus"(病院)のようなものは切らないという方針で、まあそうすると微妙なものがたくさん出てくるのですが、頻出語についてはある程度目で見て切る切らないを決めました。