Я использовал молоток для определения тем для текстового файла, содержащего 100 000 строк (около 34 МБ в формате молотка). Но теперь мне нужно запустить его для файла, содержащего миллион строк (около 180 МБ), и я получаю исключение java.lang.outofmemory. Есть ли способ разбить файл на более мелкие и построить модель для данных, присутствующих во всех объединенных файлах?? заранее спасибо
Тематическое моделирование молотком
Ответы (5)
В bin/mallet.bat увеличьте значение этой строки:
set MALLET_MEMORY=1G
Я не уверен в масштабируемости Mallet для больших данных, но проект http://dragon.ischool.drexel.edu/ может хранить свои данные в постоянстве на диске, поэтому может масштабироваться до неограниченных размеров корпуса (конечно, с низкой производительностью)
Модель по-прежнему будет довольно большой, даже если она будет считывать ее из нескольких файлов. Вы пытались увеличить размер кучи вашего java vm?
Исключение java.lang.outofmemory возникает в основном из-за нехватки места в куче. Вы можете использовать -Xms и -Xmx, чтобы установить место в куче, чтобы оно больше не появлялось.
Учитывая текущий размер памяти ПК, должно быть легко использовать кучу размером до 2 ГБ. Вы должны попробовать решение с одним компьютером, прежде чем рассматривать возможность использования кластера.