Вопросы по теме 'nutch'

сканировать веб-сайты из веб-приложения Java без использования bin/nutch
я пытаюсь использовать nutch (1.1) без bin/nutch из моего веб-приложения (java) mojarra 2.0.2... я ищу примеры в google, но нет примеров, как я могу это реализовать:/... я получить исключение, и задание не выполняется: / (я думаю, что-то с хаупом)......
1375 просмотров
schedule 05.06.2022

Относительно сканирования коротких URL-адресов с помощью nutch
Я использую сканер nutch для своего приложения, которому необходимо сканировать набор URL-адресов, которые я даю в каталог urls , и извлекать только содержимое только этого URL-адреса. Меня не интересует содержание внутренних или внешних ссылок....
2093 просмотров
schedule 21.10.2022

что не так в моем скрипте повторного сканирования nutch
привет, я использую этот скрипт для повторного сканирования моего ореха, но он дает исключение .. Indexer: org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory file:/home/hat/crawl/indexes already exists at...
1040 просмотров
schedule 14.05.2022

Использование CrawlDbReader для чтения данных сканирования Nutch
Я использую nutch 1.4 для реализации сфокусированного поискового робота. Может ли кто-нибудь сказать мне, как использовать nutch CrawlDbReader, LinkDbReader и SegmentReader API в моей программе JSP , чтобы я мог создавать собственный...
827 просмотров
schedule 02.08.2023

использовать плагин tika в nutch
В nutch я реализую плагин, который будет получать содержимое веб-страниц и обрабатывать их особым образом. Моя основная проблема заключается в том, что я хочу преобразовать веб-страницы в обычный текст, чтобы их можно было обрабатывать, я читал,...
2114 просмотров
schedule 29.06.2023

Почему Nutch Solrdedup не может удалить дубликат веб-страницы
У меня есть две веб-страницы с одинаковым содержимым, но разными URL-адресами. Один URL начинается с http://www.example.com , другой начинается с http://example.com . После того, как я использую Solrdedup для удаления повторяющихся данных в Solr....
617 просмотров
schedule 12.07.2023

ограничить количество записей, создаваемых всеми редьюсерами вместе
Вот вариант использования: входные URL-адреса считываются картами, а затем отправляются после некоторой фильтрации. Затем разделители разбивают их на основе их имени хоста. У меня есть глобальное ограничение на выходные URL-адреса после запуска...
759 просмотров
schedule 22.01.2024

Есть ли способ продолжить задание Nutch Crawl, которое было неожиданно убито?
У меня есть задача обхода Nutch, которая выполнялась целый день, пока я не убил процесс по ошибке. Я не хочу повторно сканировать семена (стоит много времени), поэтому мне интересно, есть ли способ или какие-то параметры Nutch Crawler могут...
305 просмотров
schedule 20.04.2024

Почему Nutch выполняет выборку только на одном узле Hadoop, когда всего в кластере 5 узлов?
Я запускаю Nutch на Elastic MapReduce с 3 рабочими узлами. Я использую Nutch 1.4 с конфигурацией по умолчанию, с которой он поставляется (после добавления пользовательского агента). Однако, несмотря на то, что я просматриваю список из 30 000...
1363 просмотров
schedule 30.03.2022

Как настроить Nutch, чтобы избежать сканирования бессмысленной веб-страницы календаря
Я использую Nutch для индексации сайта. Я заметил, что Nutch просканировал некоторые нежелательные веб-страницы, такие как http:// * ** * ** /category/events/2015- 11. Эта веб-страница о событии, произошедшем в 2015, 11. Для меня это полная...
134 просмотров
schedule 07.06.2022

Nutch Crawling с использованием Regex
Я хотел просканировать веб-сайт, но сохранить только те веб-страницы, например: Тип A: http://mywebsite.com/page.html . любые другие ссылки вроде. : http://mywebsite.com/a/b/ или http://mywebsite.com/a/ или что-то подобное должно быть в...
1336 просмотров
schedule 22.03.2024

Обновите Nutch, чтобы получить родительский элемент для каждого извлеченного URL-адреса.
Когда я запускаю сканер Apache Nutch 1.4, я хочу сохранить некоторую дополнительную информацию. Я хочу сохранить родителя каждого URL-адреса. Например, я хочу просканировать страницу a.html с двумя якорными ссылками на b.html и c.html. Поэтому,...
515 просмотров
schedule 13.04.2023

Запуск Apache Nutch в Windows
Я пытаюсь запустить Apache Nutch в Windows для сканирования веб-страниц. Я установил cygwin и установил его путь. Но я получаю следующее исключение: Exception in thread "main" java.io.IOException: Failed to set permissions of path:...
1275 просмотров
schedule 04.04.2022

ошибка при использовании solr и интеграции nutch и solr (HTTP ERROR 500)
У меня установлена ​​Linux Ubuntu 12.04, и я пытаюсь установить nutch 1.5.1 и solr 3.6.1 и интегрировать тему вместе для сканирования исходных URL-адресов. Я использую Этот учебник, чтобы получить эту работу. Я выполнил шаги до 3.2 и перешел к шаг...
601 просмотров
schedule 15.06.2022

nutch 2.0 повторно извлекает страницу при сбое задания
Я использую mysql в качестве хранилища с nutch. Сбой задания при сканировании некоторых сайтов. Получил следующее исключение и вышел из nutch при переходе на эту страницу: http://www.appchina.com/users.html Exception in thread "main"...
925 просмотров
schedule 12.03.2022

Сканирование перенаправлений позже с помощью Nutch
nutch-default.xml предполагает, что есть способ сохранить место назначения перенаправления при первом обходе и обходить его при следующем обходе, установив для http.redirect.max значение 0. Первое сканирование завершилось успешно, и мы могли...
289 просмотров
schedule 15.08.2022

Интеллектуальный поисковый робот, который может определять приоритеты источников на основе ключевых слов?
Я пытаюсь создать веб-сканер, который непрерывно сканирует Интернет в поисках веб-страниц, содержащих определенные ключевые слова. Для этого существует множество решений с открытым исходным кодом (Nutch, Scrapy и т. Д.), Но мне нужно интеллектуальное...
1180 просмотров
schedule 04.03.2023

Какой поисковый робот на основе Java подходит для академического проекта по созданию поисковой системы?
Итак, последние два дня я искал краулер, который соответствовал бы моим потребностям. Я хочу создать поисковую систему и сам хочу делать индексацию. Это будет частью академического проекта. Хотя у меня нет вычислительной мощности, чтобы сканировать...
809 просмотров

Последние совместимые версии Nutch и Solr
Я вижу различные комбинации версий Nutch и Solr, которые используют люди, публикующие сообщения на эту тему в Интернете. Какие последние стабильные (не бета-версии) и совместимые версии Nutch и Solr я могу загрузить и настроить без создания исходных...
3584 просмотров
schedule 30.08.2023

как отключить/включить индексацию на веб-странице
Я использую Nutch 1.6 и Solr 4.3 на Ubuntu Server 12.04. Я хотел бы включать и выключать индексирование контента. Есть ли способ указать это поведение на моих HTML-страницах, чтобы Solr мог вести себя соответствующим образом? Например, при...
231 просмотров
schedule 29.03.2023