Статьи по теме nutch [web-applications, web-crawler, nutch, short-url, java]

Вопросы по теме 'nutch'

сканировать веб-сайты из веб-приложения Java без использования bin/nutch

я пытаюсь использовать nutch (1.1) без bin/nutch из моего веб-приложения (java) mojarra 2.0.2... я ищу примеры в google, но нет примеров, как я могу это реализовать:/... я получить исключение, и задание не выполняется: / (я думаю, что-то с хаупом)......

1375 просмотров

web-applications web-crawler nutch

05.06.2022

Относительно сканирования коротких URL-адресов с помощью nutch

Я использую сканер nutch для своего приложения, которому необходимо сканировать набор URL-адресов, которые я даю в каталог urls , и извлекать только содержимое только этого URL-адреса. Меня не интересует содержание внутренних или внешних ссылок....

2093 просмотров

web-crawler short-url nutch

21.10.2022

что не так в моем скрипте повторного сканирования nutch

привет, я использую этот скрипт для повторного сканирования моего ореха, но он дает исключение .. Indexer: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/hat/crawl/indexes already exists at...

1040 просмотров

java nutch

14.05.2022

Использование CrawlDbReader для чтения данных сканирования Nutch

Я использую nutch 1.4 для реализации сфокусированного поискового робота. Может ли кто-нибудь сказать мне, как использовать nutch CrawlDbReader, LinkDbReader и SegmentReader API в моей программе JSP , чтобы я мог создавать собственный...

827 просмотров

web-crawler nutch

02.08.2023

использовать плагин tika в nutch

В nutch я реализую плагин, который будет получать содержимое веб-страниц и обрабатывать их особым образом. Моя основная проблема заключается в том, что я хочу преобразовать веб-страницы в обычный текст, чтобы их можно было обрабатывать, я читал,...

2114 просмотров

parsing apache apache-tika nutch

29.06.2023

Почему Nutch Solrdedup не может удалить дубликат веб-страницы

У меня есть две веб-страницы с одинаковым содержимым, но разными URL-адресами. Один URL начинается с http://www.example.com , другой начинается с http://example.com . После того, как я использую Solrdedup для удаления повторяющихся данных в Solr....

617 просмотров

nutch

12.07.2023

ограничить количество записей, создаваемых всеми редьюсерами вместе

Вот вариант использования: входные URL-адреса считываются картами, а затем отправляются после некоторой фильтрации. Затем разделители разбивают их на основе их имени хоста. У меня есть глобальное ограничение на выходные URL-адреса после запуска...

759 просмотров

hadoop mapreduce nutch

22.01.2024

Есть ли способ продолжить задание Nutch Crawl, которое было неожиданно убито?

У меня есть задача обхода Nutch, которая выполнялась целый день, пока я не убил процесс по ошибке. Я не хочу повторно сканировать семена (стоит много времени), поэтому мне интересно, есть ли способ или какие-то параметры Nutch Crawler могут...

305 просмотров

java web-crawler lucene nutch

20.04.2024

Почему Nutch выполняет выборку только на одном узле Hadoop, когда всего в кластере 5 узлов?

Я запускаю Nutch на Elastic MapReduce с 3 рабочими узлами. Я использую Nutch 1.4 с конфигурацией по умолчанию, с которой он поставляется (после добавления пользовательского агента). Однако, несмотря на то, что я просматриваю список из 30 000...

1363 просмотров

hadoop nutch elastic-map-reduce

30.03.2022

Как настроить Nutch, чтобы избежать сканирования бессмысленной веб-страницы календаря

Я использую Nutch для индексации сайта. Я заметил, что Nutch просканировал некоторые нежелательные веб-страницы, такие как http:// * ** * ** /category/events/2015- 11. Эта веб-страница о событии, произошедшем в 2015, 11. Для меня это полная...

134 просмотров

calendar nutch

07.06.2022

Nutch Crawling с использованием Regex

Я хотел просканировать веб-сайт, но сохранить только те веб-страницы, например: Тип A: http://mywebsite.com/page.html . любые другие ссылки вроде. : http://mywebsite.com/a/b/ или http://mywebsite.com/a/ или что-то подобное должно быть в...

1336 просмотров

regex web-crawler nutch

22.03.2024

Обновите Nutch, чтобы получить родительский элемент для каждого извлеченного URL-адреса.

Когда я запускаю сканер Apache Nutch 1.4, я хочу сохранить некоторую дополнительную информацию. Я хочу сохранить родителя каждого URL-адреса. Например, я хочу просканировать страницу a.html с двумя якорными ссылками на b.html и c.html. Поэтому,...

515 просмотров

java nutch

13.04.2023

Запуск Apache Nutch в Windows

Я пытаюсь запустить Apache Nutch в Windows для сканирования веб-страниц. Я установил cygwin и установил его путь. Но я получаю следующее исключение: Exception in thread "main" java.io.IOException: Failed to set permissions of path:...

1275 просмотров

web-crawler solr nutch

04.04.2022

ошибка при использовании solr и интеграции nutch и solr (HTTP ERROR 500)

У меня установлена Linux Ubuntu 12.04, и я пытаюсь установить nutch 1.5.1 и solr 3.6.1 и интегрировать тему вместе для сканирования исходных URL-адресов. Я использую Этот учебник, чтобы получить эту работу. Я выполнил шаги до 3.2 и перешел к шаг...

601 просмотров

integration web-crawler solr nutch

15.06.2022

nutch 2.0 повторно извлекает страницу при сбое задания

Я использую mysql в качестве хранилища с nutch. Сбой задания при сканировании некоторых сайтов. Получил следующее исключение и вышел из nutch при переходе на эту страницу: http://www.appchina.com/users.html Exception in thread "main"...

925 просмотров

apache web-crawler nutch

12.03.2022

Сканирование перенаправлений позже с помощью Nutch

nutch-default.xml предполагает, что есть способ сохранить место назначения перенаправления при первом обходе и обходить его при следующем обходе, установив для http.redirect.max значение 0. Первое сканирование завершилось успешно, и мы могли...

289 просмотров

nutch

15.08.2022

Интеллектуальный поисковый робот, который может определять приоритеты источников на основе ключевых слов?

Я пытаюсь создать веб-сканер, который непрерывно сканирует Интернет в поисках веб-страниц, содержащих определенные ключевые слова. Для этого существует множество решений с открытым исходным кодом (Nutch, Scrapy и т. Д.), Но мне нужно интеллектуальное...

1180 просмотров

web-crawler scrapy nutch

04.03.2023

Какой поисковый робот на основе Java подходит для академического проекта по созданию поисковой системы?

Итак, последние два дня я искал краулер, который соответствовал бы моим потребностям. Я хочу создать поисковую систему и сам хочу делать индексацию. Это будет частью академического проекта. Хотя у меня нет вычислительной мощности, чтобы сканировать...

809 просмотров

java multithreading web-crawler nutch heritrix

08.01.2024

Последние совместимые версии Nutch и Solr

Я вижу различные комбинации версий Nutch и Solr, которые используют люди, публикующие сообщения на эту тему в Интернете. Какие последние стабильные (не бета-версии) и совместимые версии Nutch и Solr я могу загрузить и настроить без создания исходных...

3584 просмотров

solr nutch

30.08.2023

как отключить/включить индексацию на веб-странице

Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хотел бы включать и выключать индексирование контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответствующим образом? Например, при...

231 просмотров

solr apache-tika nutch

29.03.2023

Вопросы по теме 'nutch'

Похожие вопросы