Тематическое моделирование молотком

Я использовал молоток для определения тем для текстового файла, содержащего 100 000 строк (около 34 МБ в формате молотка). Но теперь мне нужно запустить его для файла, содержащего миллион строк (около 180 МБ), и я получаю исключение java.lang.outofmemory. Есть ли способ разбить файл на более мелкие и построить модель для данных, присутствующих во всех объединенных файлах?? заранее спасибо

fayaz 02.03.2011 источник

Ответы (5)

arrow_upward
6
arrow_downward

В bin/mallet.bat увеличьте значение этой строки:

set MALLET_MEMORY=1G

metdos 04.11.2012

arrow_upward
1
arrow_downward

Я не уверен в масштабируемости Mallet для больших данных, но проект http://dragon.ischool.drexel.edu/ может хранить свои данные в постоянстве на диске, поэтому может масштабироваться до неограниченных размеров корпуса (конечно, с низкой производительностью)

yura 02.03.2011

comment

Однако похоже, что Dragon Toolkit мертв. Активности не было с 2007 года. К тому же непонятно, по какой лицензии (коммерческая разработка допустима?) - chaostheory; 18.05.2011

arrow_upward
1
arrow_downward

Модель по-прежнему будет довольно большой, даже если она будет считывать ее из нескольких файлов. Вы пытались увеличить размер кучи вашего java vm?

Turnsole 02.03.2011

arrow_upward
1
arrow_downward

Исключение java.lang.outofmemory возникает в основном из-за нехватки места в куче. Вы можете использовать -Xms и -Xmx, чтобы установить место в куче, чтобы оно больше не появлялось.

Kiran M 09.01.2012

arrow_upward
0
arrow_downward

Учитывая текущий размер памяти ПК, должно быть легко использовать кучу размером до 2 ГБ. Вы должны попробовать решение с одним компьютером, прежде чем рассматривать возможность использования кластера.

Leo5188 06.03.2011

Тематическое моделирование молотком

Ответы (5)

Похожие вопросы