Я хочу добавить слова в программу разделения слов Java с открытым исходным кодом для кхмерского языка (язык, в котором нет пробелов между словами). Разработчики давно не работали над ним, и я не смог связаться с ними для получения подробностей (http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20программа%20V1.0/). Предположительно, список был создан из кхмерского словаря, и я хотел бы воссоздать файл, чтобы включить в него больше слов.
Может ли кто-нибудь определить, в каком формате находится словарь слов (я полагаю, что это какой-то тип Trie)? Вот первые несколько строк:
0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1
И кто-нибудь знает, как бы я сделал новый (у меня большой список слов, но я не уверен, как перевести его в этот формат).
Спасибо!