表現規制についての思考実験

あなたは「表現の自由はすべてに優先される、ゾーニングは必要ない」という考えの持ち主だろうか。

そうであれば、「2 Girls 1 Cup」というビデオを検索して、それを最後まで見てほしい。

(閲覧注意の動画なので、信念のある人以外にはお勧めしない)


「2 Girls 1 Cup」というのは、有名なスカトロ動画だ。

我々は普段、そのような動画を目にする機会がない。

なぜだろうか?

それは何よりも、そのような動画を好きな人間が圧倒的少数であるということによる。


ここで思考実験をしてみよう。


ある日突然、人類が変なウィルスに冒されて——あるいは宇宙人に脳を改造されて——理由は何でもいいが、人類の半数がどうしようもないスカトロ好きになってしまったとする。

そうするとどうなるか。

メディアには大量にスカトロ動画があふれ出す。

ウンコを恍惚の表情で食べている表紙の雑誌が店頭に並び出す。

半数というのは大きなマーケットなので、そうなることは目に見えている。


しかし、この状況は「旧人」にとってはたまったものではない。

すぐにゾーニングを求める意見が噴出するだろう。

しばらくして法律が整えられ、スカトロ物はゾーニングされたエリアでしか買えないようになる。

アニメにはなぜかカレーを食べるシーンがやたらと増えたような気がするし、その理由もだいたい皆察しているが、まあその程度はしょうがない。


また別の思考実験。


ある日突然、(略)人類の半数がサメにどうしようもない恐怖を感じるようになってしまったとする。

サメの画像を見るだけでPTSDのような症状が現れる。

もちろん、ジョーズのパッケージなんて論外だ。


そういうわけで、今や世界の半数を占める「新人」たちの力で、サメ物のゾーニングが進められる。

サメ映画を見ようと思うと、「この先には敏感なコンテンツがあります」という画面を通らないといけない。

旧人」はぶつぶつ言いながらもその状況を受け入れる。


さて、これらの思考実験で、「新人」がそれぞれ一人だったらどうだろうか。

スカトロ好きの一人と、サメにトラウマのある一人。

前者は自分の愛するコンテンツを公共の場で発表したら袋叩きに遭うし、後者はサメの画像が目に入らないようにビクビクしながら生きるしかない。

現状のゾーニングが揺らぐことはない。


ここで言いたいのは、「数は重要だ」ということ。

ゾーニング——というより表現規制一般——は、常に多数派(過半数という意味ではなく、ある程度以上の発言権を持つ集団)同士の調整のためのものであったし、今後もそうであり続けるだろう。

それは善悪や理念というよりも、力学のようなものだ。


表現規制の話になると、宗教的に自分の考えの正しさを信じる人間がわらわら出てくるが、そもそもそんな絶対の正義などは存在しない。

完全に表現規制の廃絶を主張できるのは、「2 Girls 1 Cup」の動画を見ながらカレーを食べられる人間ぐらいだろう。

結局のところ、「スカトロ動画を昼間放送して何が悪いんだ」「サメ映画なんて怖いものをよく公共の場に置いておけるな」的に、自分の快不快を(必要に応じて仲間と連帯しながら)訴えていって、力関係で勝った集団が好きなものを公共に流し、力関係で負けた集団が公共の場で不快なものを目にするという、それだけのことだ。

もちろん、現状だってそうなっているから、テレビにスカトロや性交シーンが出てきたりはしない。

多数派のための表現規制のおかげだ。


表現規制の基準は、これまでにも大きく変わっている。

感性は変わるものだからだ。


例えば、昔「チャタレー事件」で「チャタレイ夫人の恋人」が猥褻だと認定されたのは、当時の多数派にとってそれが猥褻だったからだろう。

昔の人間が愚かだったからではない。


ここでまた思考実験をして、未来では恋愛ドラマでは無修正の性交シーンがテレビに出てくるとしよう。

現代人が未来人に「どうしてあなたの時代の恋愛ドラマには性交シーンが出てこないのですか? あなたの時代にも恋人たちは性交をしていたでしょう」と聞かれたら何と答えるのがいいだろうか。

答えは、「我々の時代の人にとってそれは刺激的すぎるから」となるだろう。

「我々は未来のあなたたちより愚かだから」ではないし、ましてや「我々にとっては表現の自由は重要ではないから」ではない。


ところで、ゾーニングというのは「たかが技術的な問題」でもある。

例えば、人間がすべてARメガネなりARコンタクトなりをつけて生活していて、「性レベル*1」のフィルタを設定することによって、設定したレベル以上の性コンテンツは目に入らないようにできるとしたら、各人が自主的にゾーニングできることになる。

このゾーニングに反対する人はあまりいないだろう。


結局のところ、ゾーニング表現規制というのは、それぞれ違った感性を持った人間たちが、この基底現実という世界を共有していることから起こる問題だということだ。

もちろん、人類が基底現実を離れられたら問題は自動的に解決するのだが、それまでの短い間は何とかすり合わせをしながら生きるしかない。

感性が違う以上は闘争になることは避けられないとはいえ、最低限、「自分と違う感性を持った人がいる」ということを頭に入れながら、泥臭く妥協点を探していくしかないんじゃないだろうか。


いま多数派の人だって、いつ少数派になるかわからない。

最初の思考実験では、人類の「半分」がスカトロ好きになるという設定だったが、これが「99%」で、あなたが1%の旧人だったら、あなたはどうするだろうか。

たとえ自分が少数派でも、スカトロコンテンツを見ないで生きる権利を求めて必死で戦うんじゃないだろうか?

まあ、それは1%でも仲間がいればの話だが。

もしスカトロ好きになったのがあなた以外の人類全員だったとしたら、どうだろうか。

そういうことを想像しながらゾーニング表現規制について考えるのも悪くないと思う。


ぼくは「2 Girls 1 Cup」の動画を見ながらカレーを食べられる*2タイプの人間なのだが、岡目八目ということもあるので、この問題について半分部外者*3の立場から書いてみた。

ちなみに、この動画を知ったのは「反共感論」という本に出てきたから。

おすすめ。

*1:性レベルは何らかの手段でユーザーからのフィードバックを得るとする。

*2:一応やってみた。

*3:見たくないものを見せられることはないが、見たいものが堂々と見られなくなることはあるので、完全に部外者ではない。

ドヌーヴ「女性を口説く権利」誤訳指摘

(2018/01/12 15:44 追記)「カトリーヌ・ドヌーヴを含め100人の女性が主張したこと」というよりよい翻訳が出ていて、そちらにはここで指摘したような問題はありません。そちらを読むことをお勧めします。




ドヌーヴ「女性を口説く権利」 全訳ですが、ブコメにもあるように誤訳があり、中には大きなものもあるので、限られたフランス語力ではありますが、指摘しておきます。指摘に間違いがあれば再指摘をお願いします。



性暴力は重大犯罪だ。(Le viol est un crime.)

"viol"は「レイプ」です。

ナンパはしつこかったり不器用だったりしても犯罪ではないが、そのことがマッチョの侵害行為を保証することにはならない。(Mais la drague insistante ou maladroite n’est pas un délit, ni la galanterie une agression machiste)

まず、"galanterie"を"garantie"(保証)と間違えていますね。"galanterie"は日本語に訳すのが難しい単語ですが、「男性の女性に対する親切(往々にして下心あり)」的なものです。また、後半は"est"が省略されています。直訳すると、「しつこい/不器用なナンパは犯罪ではなく、女性への親切もマッチョの攻撃ではない」です。

いわゆる普遍の名の下で (au nom d’un prétendu bien général)

"général"は"prétendubien"を修飾しています。「…という一般的な建前でいわゆる公益の名のもとに」という感じでいいんじゃないでしょうか。*1

「豚野郎」たちを屠殺場へ送り込むこの熱狂だが…

この段落は構文が取れていませんね。原文を残しつつ訳し直すと、次のようになります。

「豚野郎」たちを屠殺場へ送り込むこの熱狂だが、女性が自立することを手助けするには程遠かった。 実際には、これで得するのは、性の自由の敵、宗教的過激主義者、最悪の反動主義者、また本質的な善という概念とヴィクトリア朝のモラルという名の下に、女性は「別扱い」の存在で、保護してくれと要求する大人の顔をした子供であると考える人たちだ。

スイスで提出されている法案 (un projet de loi en Suède)

ブコメで指摘がありますが、「スウェーデン」です。

さらにご苦労なことがある。二人の成人が一緒に寝たいと思ったら、携帯のアプリを使って、あらかじめ正式なリストのチェック欄を見て、やりりたいこととやりたくないことに印をつけなければならないというのだ!(Encore un effort et deux adultes qui auront envie de coucher ensemble devront au préalable cocher via une « appli » de leur téléphone un document dans lequel les pratiques qu’ils acceptent et celles qu’ils refusent seront dûment listées)

これは致命的なミスです。"Encore un effort et ..."というのは、「この調子でいけばあとちょっとで」という意味です。「この調子でいけば、…ということになるだろう」ということで、法案がそうだというわけではありません。

トラウマを植え付けられたと感じる必要はない(原文略)

"à jamais"(永遠に)が落ちています。

評判だおれ (non-événement)

よくわからない訳語の選択です。「たいしたことのないこと」あたりでいいでしょう。

力の乱用を超えて (au-delà de la dénonciation des abus de pouvoir)

"dénonciation"(糾弾)が抜けています。「力の乱用に対する糾弾を超えて」です。

たとえそれが辛く、生涯残る傷を残すものだったとしても、身体を傷つけられる事故にあった女性は尊厳を傷つけられないし、傷つけられるべきでもない。(Les accidents qui peuvent toucher le corps d’une femme n’atteignent pas nécessairement sa dignité et ne doivent pas, si durs soient-ils parfois, nécessairement faire d’elle une victime perpétuelle.)

全体的にちょっとよくないので訳し直します。

女性が事故によって体を傷つけられたとしても、それは必ずしも尊厳を傷つけられたことを意味せず、またそれらの事故は時にはとてもつらいものであるが、それでも事故に遭った女性を永遠の被害者にするようなことがあってはならない。




誤訳指摘はここまでです。とても読みにくいと思うので、本文に反映してもらえたらと思うのですが、それは元の書き手次第ですね。


ここから少し、なぜこの誤訳指摘をしたかについて書きたいと思います。興味のある方だけどうぞ。


ネット上での出来事に詳しい人なら覚えているかもしれませんが、私はこれまで、「善意のひどい訳について」、「腐った翻訳に対する態度について」といった記事で、ひどい翻訳を糾弾してきました(後者の件では、結局非公式PDF版SICP・新訳として自分で訳し直しています)。

これで人を萎縮させるつもりはなかったのですが、残念ながらそのように受け取られたかもしれません。この前、TLで次のようなツイートを見ました。




「誤訳のある翻訳をするとすごい叩かれる」という恐れができているとしたら、それは残念なことです。

では、なぜ上記の記事では翻訳を徹底的に糾弾したのか。

それは、それらの翻訳が本当に、例外的にひどかったからです。

構文という概念がなく、拾った単語を適当にくっつけているとしか思えない、翻訳と称する何か。

どうしてこんなことになったんだ? という思いから、また「この翻訳を信用してはいけない」という警告の意味も込めて、そのような強い言い方になりました。


今回の翻訳は、まあ普通レベルです。

すべてを一から翻訳し直さなければいけないほどの惨憺たる翻訳というわけではなく、この翻訳のおかげで大意が取れて助かっている人もいるでしょう。

訳した人はそれなりにフランス語ができる人で、自分でもレベルを把握しているのではないでしょうか。

そういう人に強い言葉を使う必要はありません。


本来、こちらのほうが当たり前です。

全体としてそれなりの訳文の中にいくつかの間違いがあれば、それを指摘して、それでおしまいです。

私はそういうこともしています。

ただ、そういうのは目立たないので、人目に触れるのはどうしても「マサカリ」だけになってしまいます。

それによって「翻訳を出すとボコボコにされる」というイメージがつくのは残念なので、今回は「普通の誤訳指摘」を公開でしてみました。

(もちろん、誤訳を直すことで役に立てればという気持ちもあり、ついでにアフィでも貼ろうとかいう気持ちもあります)


また、結果的にマサカリを投げることになった相手も、必ずしもずっとそうであるとは限りません。

善意のひどい訳について」でマサカリを投げた相手のid:ymotongpooさんは、その後「Go 2にむけて」という翻訳記事を出しています。

やはり構文を取るのが弱いところはあるのですが、それでも全体としてはそれなりに訳せていました。間違っているところは、修正のプルリクエストを二回(#2#8)出して、取り入れてもらいました。


そういうわけで、翻訳を出しても「よっぽど」でなければ(少なくとも私に)叩かれることはないこと、また仮に「よっぽど」な翻訳を出してしまったとしても、投げられるマサカリは人に対するものではなく訳文に対するものなので、それを糧にしてほしいということ、というのが言いたかったことです。また、自分の翻訳が「よっぽど」かどうかに自信がなければ周囲の人に見てもらうというのもいいと思いますし、何なら私もお手伝いします。

どんどん翻訳していきましょう。


最後に、フランス語のおすすめ教材を貼ります。


フランス語リアルフレーズBOOK」は、砕けた言い方が多く収録されていて、表現の幅が広がります。


現地収録! フランス語でめぐるPARIS」は、フランスでの日常会話をそのまま収録したような本で、リスニングの練習にいいでしょう。

*1:ブコメで指摘があり修正しました。ありがとうございます。

iOSの謎の単語と、それにまつわるデマ

(2018/01/15 追記) いつの間にか削除されていたようです。iOS 11.2.2で候補から消えていることを確認しました。

iOSで「レイプ」と入力しようとすると、変な候補が出てきます。



レイプアールサァン

いったいこれは何でしょうか。


「レイプアールサァン」でGoogle検索をすると、知恵袋が見つかり、その中で次のような回答がされています。

一つの可能性としては、変換辞書の盗用防止があります。

もし「レイプアールサァン」が変換できたら、それはiOSの辞書の盗用だということになります。


なるほど、それっぽいですね…。

それが完全なデマだということを除けばね!


では、この「レイプアールサァン」とは何なのか?

キーとなる人物は、ツイッターの「たいぷあーる」(@HONDA_TYPER)氏です。



今でもバリバリ活動している人なので、こうやって取り上げるのは気が進まないのですが、デマがとめどなく繁殖してしまうのを見かねたので記事にしました。


まず、このたいぷあーる氏ですが、友人には「タイプアールサァン」と呼ばれていました。



名前から考えて不思議ではありませんね。


で、この人は「レイプアールサァン」とも呼ばれています*1



レイプにまつわる何かの内輪ネタがあったんでしょう*2

これらのツイートは2011年のもので、時期的に、iOSの辞書の話題が出るよりはるかに先のことです。

また、元の名前という文脈もあるので、こちらが先であることは確実でしょう。


それにしても、こんなあだ名がなぜiOSの辞書に拾われたのでしょうか。

次のツイートがヒントになるかと思います。



これ、Foursquareですよね。

悪ノリして、自分の住所を「レイプアールサァン」として登録したんだと思います。

これは、iOSの辞書を作る際にクローラが拾ってしまっても無理はないですね。

もちろん、いろいろフィルタリングに力を入れているとは思いますが、数百万もある辞書エントリのうちのひとつなので、チェックが漏れてしまったんだと思います。


ちなみに、本人の反応はこちらです。



さて、この記事を書くに至った経緯ですが。


眞踏珈琲店公式」という、フォロワー2万超えの有名アカウントが次のようなツイートをしたことによります。



この「レイプアールサァン」、「レイプ」が性的な用語ということで下に追いやられて、結果として上のほうに出てくることが多いんですよね。

このアカウントも、検索の結果、上記の知恵袋にたどり着いていました。



もちろん、これはデマです。

それで、私が調べたことを簡単に伝えました。



すると、次のような反応でした。



という説」というところが気になりました。

こちらには鉄壁の証拠があるのに、諸説のひとつ扱いになってしまう。


iOSの日本語入力辞書の1エントリの問題とはいえ、デマが堂々と通用している現状に歯がゆさを覚えたので、こうして記事として記録に残しておくことにしたというわけです。

デマと言っても、該当知恵袋を書いた人は「一つの可能性」と明言しています。

それが引用されるうちに「説」としての信用性を獲得していく…。

多くのデマは、こういう過程を経て広がっていくんでしょうね。

*1:ところで、「レイプアールサァン」のほうが時期が先ですね。実際にこちらのほうが先なのかもしれませんし、「タイプアールサァン」と言い始めた人のアカウントが消えているとかかもしれません。

*2:もちろん、レイプをしたわけではないとは思います。

青春→鯖鰆みたいなやつ

今日、こんなツイートを見かけました。



ぼくもこういうのは大好きです。

(社会に適応できているかどうかは微妙なところです)

それで、こういうのを探してみることにしました。


漢字の構造については、漢字構造情報データベース(CHISE)というものがあります。

(かなりの労力がかかっていると思われるデータベースです。作られた方に感謝します。)

今回は、これを使わせていただきます。

% git clone http://git.chise.org/git/chise/ids.git


この中の IDS-UCS-Basic.txt が CJK 統合漢字のファイル、IDS-UCS-Ext-A.txt が CJK 統合漢字拡張 A のようです。

表示できない文字ばかり出ても面白くないので、今回はこの二つだけを使うことにします。


それと、元ツイートで言う「青春」のような、加工元の単語が必要です。

今回は、Wikipedia のタイトルを使うことにします。

% curl -LO https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles.gz
% gunzip jawiki-latest-all-titles.gz


後は、簡単な Perlワンライナー(1行スクリプト)で、加工元の単語それぞれについて、「すべての文字に共通の部品を足すことができるもの」を探すだけです。

% perl -Mutf8 -CSD -F/\\t/ -nale 'if (@ARGV) { next if $F[2] =~ s{(\p{Han})}{$1}g < 2; for $i(0..length($F[2])-1) { $ch = substr($F[2], $i, 1); if ($ch =~ m{\p{Han}}) { $dict{$ch}->{substr($F[2], 0, $i).".".substr($F[2], $i+1)} = $F[1]; } } } else { next unless $F[1] =~  m{^(\p{Han}{2,})$}; %n=(); @n{split//, $F[1]}=(); next unless keys(%n)==length($F[1]); %t = (); while ($F[1] =~ m{(\p{Han})}g) { for $key(keys %{$dict{$1}}) { $t{$key}++; } } for $key(keys %t) { ($k=$key) =~ s{\P{Han}}{}g; $s=join("", map { $dict{$_}{$key}; } split(//, $F[1])); print "$F[1]+$k=$s" if $t{$key} == length($F[1]) and not exists $e{$F[1].$s}; $e{$F[1].$s} = (); } }' ids/IDS-UCS-Basic.txt ids/IDS-UCS-Ext-A.txt jawiki-latest-all-titles > list.txt


できたファイルはgistに置いてあります。

16万行もあるので見るのはちょっと大変です。


この中から、面白そうなものを見てみることにしましょう。

まずは、一番長いものです。

% perl -Mutf8 -CSD -nle '$dict{$_}=(); END { print for sort {length($b)<=>length($a)} keys %dict; }' list.txt | head


一番長いものは9文字でした。

世田谷区教育委員会+⺡=泄沺浴沤漖淯涹溳浍
連合国軍最高司令官+木=槤㭘椢楎樶槁柌柃棺
国土交通省大臣官房+木=椢杜校樋㮐杕栕棺椖


「世田谷区教育委員会」、全部さんずいがつけられるんですね。


次に、足す部品ごとに、一番長いものを探してみます。

% perl -Mutf8 -CSD -nle '@F=split/[\+=]/; $dict{$F[1]}=$_ if length($_) > length($dict{$F[1]}); END { print $dict{$_} for sort keys %dict; }' list.txt


いくつか拾うと、次のような感じです。

喜多見不動堂+⺖=憘恀悓怀慟憆
共産主義者同盟+⺘=拱摌拄㩘㨋挏擝
青少年委員会+⺼=腈䏚脌腇䐣脍
企業年金連合会+口=㖉㗼哖唫嗹哈哙
喜多見不動尊+火=熺㶴䙺炋㷲燇
風林火陰山雷+疒=瘋痳疢癊疝癗
連邦取引委員会+糹=縺綁緅紖緌縜絵
原子力安全委員会+艹=蒝芓艻荌荃萎蒷荟
世界長者番付+言=詍䛺䛫諸譒詂
月火水木金土+門=閒焛閖閑䦦䦌
人皇帝時代+魚=鯶魜鰉䱱鰣鮘
公民身分番号+鳥=䲲鴖鵢鳻鷭鴞


Wikipedia に「日月火水木金土」という記事はないようですが、「間」があるので「間閒焛閖閑䦦䦌」と揃いますね)


ほかに、よく出てくる単語についても見てみます。

Wikipedia でリンクが張られている数が多いもの順にリストを作ります。

% curl -Ls https://dumps.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2 | bzcat | head -n 1000000 | perl -Mutf8 -CSD -nle '$dict{$1}++ while m{\[\[(\p{Han}{2,})\]\]}g; END { print for sort { $dict{$b}<=>$dict{$a} } keys %dict; }' > frequent.txt
% perl -Mutf8 -CSD -nle 'if (@ARGV) { m{^(\p{Han}+)}; $dict{$1}->{$_}=(); } else { print for keys %{$dict{$_}}; }' list.txt frequent.txt > frequent_plus.txt


目視でいくつか拾ってみました。

大久保利通+木=杕杦椺梸樋
足利尊氏+⺡=浞浰澊汦
日清食品+艹=䒤蔳䓹䓵
武田信玄+女=娬㚼㜃妶
吉本新喜劇+口=咭呠噺嘻㘌
小林多喜二+亻=仦㑣侈僖仁
長宗我部元親+艹=萇萗莪蔀芫藽


最後に、この記事を公開するにあたって、はてなダイアリーEUC-JP なので、EUC-JP で表せない漢字を実体参照にしました。

% perl -Mutf8 -MEncode -CSD -i.bak -ple 's{(\p{Han})}{ Encode::encode("shiftjis", $1) eq "?" ? sprintf("&#%d;", ord($1)) : $1; }ge;' draft.txt

*1


やっぱり、こういうちょっとしたテキスト処理には Perlワンライナーが便利です。

awksed やるぐらいなら Perl おすすめですよ!

ツイッターでぼくの言いたいことを言ってくれている人がいたので、ツイートを貼っておきます。





紹介されているミニマル Perl、ぼくは読んだことがないので読んでみたいのですが、中古しかないのが残念です。



ところで、漢字に部首をつけるのが何の役に立つかを考えたのですが、検閲のある SNS などでヤバい単語を書くのにいいかもしれません。

リストを見ると、

本番行為+⺡=泍潘洐溈
本番行為+⺮=笨䉒筕䈧
本番行為+艹=苯蕃荇蒍


なんてのがありました。(ろくでもない)

*1:なぜ "shiftjis" にしているかは面倒なので略。

適当に情報を消費する人たち(Amazon Dash Buttonについて)

Amazon Dash Buttonは何がヤバイのかという記事が最近バズっていましたね。


この記事の中で、「電池の寿命が1年」というのがキーのひとつになっているというところはいいですよね?

また、1年ごとに電池が切れるのもえげつない。

1年で電池が切れるからこそ、Amazonプラットフォームが広告市場として成立するのだ。
Amazon Dash Buttonによって、広告費の投入先がテレビCMから、Amazonプラットフォーム上に移動したのだ。

(強調は引用者)


ところで、"Amazon dash battery"といったキーワードで英語版のGoogleで検索すると、次の記事が出てきます。*1


Amazon Dash Button Teardown

This means the ~1200 mAh battery should be able to power the device for at least four hours while on and decades while in sleep. Since the button is only on for a few seconds when activated, it can probably be used close to 1000 times before the battery dies. Thus, the button should become obsolete long before the battery is depleted.

(つまり、~1200 mAhの電池はオンの状態で最低4時間、スリープ状態で数十年間給電できるはずだということになる。ボタンはアクティベートされたときに数秒間しかオンにならないので、電池が切れるまで1000回近く使えるだろう。そういうわけで、電池が切れるずっと前にボタン自体が必要なくなっているはずだ。)


実際に"decades"(数十年)持つかどうかはともかく、5年でも持つなら、話は全然変わってきますよね。

この記事が正しければ、元記事の「電池の寿命が1年」というのが見当違いであるという点について、問題ないですよね?*2


さて、もうひとつポイントを押さえておきます。


英語圏で最初に出た製品について情報を得るのに、まず英語で検索するというのは、基本中の基本である。


これは私の意見なのですが、みなさんはいかがでしょうか。

よって、私には、現状が次のように見えています。


キーとなる情報について、基本中の基本といえるような調査が行われておらず、結果として考察が見当違いになっている記事に、2480ブクマ(はてなブックマーク)もついている。


いや、ネット上の情報が玉石混淆だという点については非常に今さらなんですけどね。

これだけの人数がいて、「おかしい」と思う人がほとんどいないというのはどうなんでしょうね。

目から鱗が落ちたという人がブコメにたくさんいますが、頭大丈夫ですか?


*1:これは旧バージョンについてのものです。新バージョンはこちら

*2:新バージョンではさらに電力消費が抑えられているのでなおさらです。

ドイツ語分割

ドイツ語分割スクリプトを作りました。

デモはこちら。

German Word Decomposer Demo

上のテキストエリアに例えば"Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz"と入れると、下のテキストエリアに"Rindfleisch-Etikettierungs-Überwachungs-Aufgaben-Übertragungs-Gesetz"となって出てきます。

レポジトリはこちらです。

https://github.com/hiroshi-manabe/german-word-splitter


新旧正書法に対応しています。

正書法では、例えば"Schiffahrt"は"Schiff-Fahrt"になります。

何をもって分割単位とするかは難しいところなのですが、"Bahnhof"(駅)や"Krankenhaus"(病院)のようなものは切らないという方針で、まあそうすると微妙なものがたくさん出てくるのですが、頻出語についてはある程度目で見て切る切らないを決めました。

ニューラルかな漢字変換の細かいツッコみどころ

ニューラルかな漢字変換という記事へのツッコミです。

いや、ニューラル部分はいいんですよ。

ぼくはやってないから。


ツッコみどころは、ごく細かいところです。

注釈の、「かな漢字変換はN=3以上にしても精度が上がらないことが実験により確かめられています。詳しくはの論文(リンク)を参照ください。(ドヤァ 」という箇所です。


それ、BCCWJのコアデータだけ使った場合ですよね。


ぼくは以前、N-gram かな漢字変換を作って公開したことがあります。

これは、京都大学で公開している言語モデル配布ページの、BCCWJ全体を使ったものです。

実装はhttps://github.com/hiroshi-manabe/ngram-converter-cppにあります。


http://vocrf.net/test/ime.htmlで、4-gram かな漢字変換をテストできます。

(PCで、PCのIMEを切って、IME On/Off ボタンを押します)

これでやったら、例えば「今日の天気は」等は変換できます。

(ちなみに、例えば「てんきがおとずれた」はちゃんと「転機が訪れた」になります。)


まあ、ぼくのやつはテストデータと訓練データを分離したちゃんとした実験をしていないので、うまくいって当たり前と思われるかもしれません。

でも、BCCWJコーパス全体の中に「今日の天気」は47件もあるので、訓練データとテストデータを分けたとしても、偏りなく分ければ訓練データにも多数含まれることになります。

(ところで、言語モデル配布ページのkkc-BCCWJ.tarの中の3-gram.fwkを見ると「2 今日/きょう の/の 天気/てんき」となっていて、3-gram が2個しかないことになっているんですよね。少納言などで調べると47件あるのに。どうしてこうなっているんでしょうか?)


いや、ぼくのやつはちゃんと論文にしてないし、これがどこかの知らない人なら、「お前の 4-gram 変換なんて知らん」と言われたらそれまでなんですけどね。

不思議なのは、yoh_okuno さんは昔Ngramかな漢字変換とMozc辞書の比較(現在はプライベートモード)という記事を書いて、(ぼくがサボってた)精度の検証をしてくれているということです。

そのときに、変換結果を見ていたら、2-gram じゃできないような変換(元記事で書かれているようなもの)が 4-gram でできているということに気づいて、「かな漢字変換はN=3以上にしても精度が上がらない」ということが一般的には言えないとわかってもいいはずだと思うんですよね。


まあ、今回の記事のやつはコアデータだけ使っているということで、それでニューラルでうまくいっているのはほんとすごいとは思うんですけど。

単純に、不思議だなぁという話でした。