Разделить японские слова в python, javascript или java?

Предыстория: я попытаюсь составить список наиболее часто используемых слов / кандзи на разных досках сообщений на 2ch.net, чтобы изучающие японский язык могли быстро участвовать в онлайн-обсуждениях и, таким образом, иметь мотивацию продолжать.

Я ищу способ разделить слова, но это не так просто, как в английском. Слова могут состоять либо из одного кандзи, либо из нескольких, например «巨人» (гигант) или «人» (человек), а также пробелов нет.

Так что мне, вероятно, понадобится какая-то японская библиотека обработки текста, а я знаю только python, javascript и java. (Я предпочитаю питон)


person Alexander    schedule 27.07.2013    source источник
comment
@lattyware Это не так просто, как разделение символов, потому что слово может состоять не только из нескольких символов, но и из одного.   -  person Alexander    schedule 27.07.2013
comment
Да, если вы читаете ответы на сообщение, на которое я указал, люди говорят о разделении японского на слова.   -  person Gareth Latty    schedule 27.07.2013


Ответы (1)


Я искал "процессор естественного языка" для японского языка и нашел это

https://jprocessing.readthedocs.org/en/latest/

и похоже это то, что я искал.

person Alexander    schedule 27.07.2013