Предыстория: я попытаюсь составить список наиболее часто используемых слов / кандзи на разных досках сообщений на 2ch.net, чтобы изучающие японский язык могли быстро участвовать в онлайн-обсуждениях и, таким образом, иметь мотивацию продолжать.
Я ищу способ разделить слова, но это не так просто, как в английском. Слова могут состоять либо из одного кандзи, либо из нескольких, например «巨人» (гигант) или «人» (человек), а также пробелов нет.
Так что мне, вероятно, понадобится какая-то японская библиотека обработки текста, а я знаю только python, javascript и java. (Я предпочитаю питон)