Тематическое моделирование молотком

Я использовал молоток для определения тем для текстового файла, содержащего 100 000 строк (около 34 МБ в формате молотка). Но теперь мне нужно запустить его для файла, содержащего миллион строк (около 180 МБ), и я получаю исключение java.lang.outofmemory. Есть ли способ разбить файл на более мелкие и построить модель для данных, присутствующих во всех объединенных файлах?? заранее спасибо


person fayaz    schedule 02.03.2011    source источник


Ответы (5)


В bin/mallet.bat увеличьте значение этой строки:

set MALLET_MEMORY=1G
person metdos    schedule 04.11.2012

Я не уверен в масштабируемости Mallet для больших данных, но проект http://dragon.ischool.drexel.edu/ может хранить свои данные в постоянстве на диске, поэтому может масштабироваться до неограниченных размеров корпуса (конечно, с низкой производительностью)

person yura    schedule 02.03.2011
comment
Однако похоже, что Dragon Toolkit мертв. Активности не было с 2007 года. К тому же непонятно, по какой лицензии (коммерческая разработка допустима?) - person chaostheory; 18.05.2011

Модель по-прежнему будет довольно большой, даже если она будет считывать ее из нескольких файлов. Вы пытались увеличить размер кучи вашего java vm?

person Turnsole    schedule 02.03.2011

Исключение java.lang.outofmemory возникает в основном из-за нехватки места в куче. Вы можете использовать -Xms и -Xmx, чтобы установить место в куче, чтобы оно больше не появлялось.

person Kiran M    schedule 09.01.2012

Учитывая текущий размер памяти ПК, должно быть легко использовать кучу размером до 2 ГБ. Вы должны попробовать решение с одним компьютером, прежде чем рассматривать возможность использования кластера.

person Leo5188    schedule 06.03.2011