что не так в моем скрипте повторного сканирования nutch

привет, я использую этот скрипт для повторного сканирования моего ореха, но он дает исключение ..

Indexer: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/hat/crawl/indexes already exists
    at org.apache.hadoop.mapred.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:111)
    at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:772)
    at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:730)
    at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1249)
    at org.apache.nutch.indexer.Indexer.index(Indexer.java:76)
    at org.apache.nutch.indexer.Indexer.run(Indexer.java:97)
    at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
    at org.apache.nutch.indexer.Indexer.main(Indexer.java:106)

сценарий

bin/nutch inject crawl/crawldb urls
bin/nutch generate crawl/crawldb crawl/segments 
s1=`ls -d crawl/segments/2* | tail -1`
echo $s1
bin/nutch fetch $s1 -threads 100 -depth 3 -topN 5
bin/nutch updatedb crawl/crawldb $s1 


bin/nutch invertlinks crawl/linkdb -dir crawl/segments 

bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/*

получил это от http://wiki.apache.org/nutch/NutchTutorial

может кто подскажет что не так....

java nutch

ragaa 28.01.2011 источник

comment

Сообщение об ошибке Output directory file:/home/hat/crawl/indexes already exists кажется мне довольно ясным, не так ли? - Bart Kiers 28.01.2011

comment

кажется, вы правы, но какое решение для этого каждый раз, когда мне нужно удалить каталог и индекс или что??? - ragaa 28.01.2011

comment

Удалите или переместите его. Только не оставляй его там. - Bart Kiers 28.01.2011

Ответы (1)

arrow_upward
1
arrow_downward

вы используете тот же каталог для хранения сгенерированных индексов, т.е. сканировать/индексировать. Попробуйте использовать другой или удалите старые.

user1348655 21.04.2012

что не так в моем скрипте повторного сканирования nutch

Ответы (1)

Похожие вопросы