ドイツ語分割

ドイツ語分割スクリプトを作りました。

デモはこちら。

German Word Decomposer Demo

上のテキストエリアに例えば"Rindfleischetikettierungsüberwachungsaufgabenübertragungsgesetz"と入れると、下のテキストエリアに"Rindfleisch-Etikettierungs-Überwachungs-Aufgaben-Übertragungs-Gesetz"となって出てきます。

レポジトリはこちらです。

https://github.com/hiroshi-manabe/german-word-splitter


新旧正書法に対応しています。

正書法では、例えば"Schiffahrt"は"Schiff-Fahrt"になります。

何をもって分割単位とするかは難しいところなのですが、"Bahnhof"(駅)や"Krankenhaus"(病院)のようなものは切らないという方針で、まあそうすると微妙なものがたくさん出てくるのですが、頻出語についてはある程度目で見て切る切らないを決めました。