Что это за Трие?

Я хочу добавить слова в программу разделения слов Java с открытым исходным кодом для кхмерского языка (язык, в котором нет пробелов между словами). Разработчики давно не работали над ним, и я не смог связаться с ними для получения подробностей (http://sourceforge.net/projects/khmer/files/Khmer%20Word%20Breaking/Khmer%20Word%20Breaking %20программа%20V1.0/). Предположительно, список был создан из кхмерского словаря, и я хотел бы воссоздать файл, чтобы включить в него больше слов.

Может ли кто-нибудь определить, в каком формате находится словарь слов (я полагаю, что это какой-то тип Trie)? Вот первые несколько строк:

0ឳមអគណជយឍឫហកដពទឱលថឦឡញឩខនឧផប។ឋវឭឈឃឥឌឰឪសងចភធឯតឆរ
1ទ
0ក
1
1ីែមគួណជយ៍ៀហកទុលេញ៉ឺនំឹៃូឈឃោាឿសងចិ្ធើតៅរ
1គនសងរ
0ទ
0ា
0យ
0ព
0ន
1
1រ
0ា
0ស
0ី
1

И кто-нибудь знает, как бы я сделал новый (у меня большой список слов, но я не уверен, как перевести его в этот формат).

Спасибо!


person Nathan    schedule 29.01.2011    source источник


Ответы (1)


После беглого просмотра кода у меня появилась теория.

Создайте SearchTree, который расширяет TreeItem. Для каждого слова в вашем словаре звоните addWord из TreeItem. Когда итерация будет завершена, вызовите export на SearchTree. Использовать новый файл в качестве входного файла слова.

Кроме того, может быть недокументированный параметр для khwrdbrk.jar, --create, который будет считывать слова для нового дерева из стандартного ввода.

Опять же, просто теория, но дайте мне знать, что произойдет, если вы проверите это.

person ideally_world    schedule 29.01.2011
comment
Я не ответил на первую часть вашего вопроса, но тогда я подозреваю, что последняя часть является самой важной частью? - person ideally_world; 29.01.2011
comment
Вау, невероятно! --create сделал свое дело! Большое спасибо, что нашли время просмотреть код и дать мне этот ответ! - person Nathan; 29.01.2011