ドイツ語分割
ドイツ語分割スクリプトを作りました。
デモはこちら。
上のテキストエリアに例えば"Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz"と入れると、下のテキストエリアに"Rindfleisch-Etikettierungs-Überwachungs-Aufgaben-Übertragungs-Gesetz"となって出てきます。
レポジトリはこちらです。
https://github.com/hiroshi-manabe/german-word-splitter
新旧正書法に対応しています。
旧正書法では、例えば"Schiffahrt"は"Schiff-Fahrt"になります。
何をもって分割単位とするかは難しいところなのですが、"Bahnhof"(駅)や"Krankenhaus"(病院)のようなものは切らないという方針で、まあそうすると微妙なものがたくさん出てくるのですが、頻出語についてはある程度目で見て切る切らないを決めました。