Я ищу поисковую систему, которая может регулярно (ежедневно) сканировать около 100 страниц на наличие изменений и индексировать соответствующий сайт, если будут обнаружены изменения с момента последнего сканирования. Он должен иметь возможность обрабатывать около 100 сайтов, каждый из которых содержит в среднем 4000 страниц среднего размера около 5 КБ, каждый на своем сервере (но только на одной централизованной поисковой системе). Каждый из этих сайтов будет иметь форму поиска, которая будет отправлена в эту поисковую систему. Возвращаемые результаты должны относиться к сайту, который их отправил. Я создаю шаблоны для внешних сайтов, поэтому я могу добавить в форму поиска скрытое поле, указывающее, с какого сайта отправляется форма.
Что бы вы порекомендовали мне изучить?
Я хотел бы использовать для этого систему на основе Python, если это возможно.
В настоящее время я использую что-то под названием iSearch2. Он не кажется очень стабильным в этом масштабе, в описании продукта указано, что он на самом деле не предназначен для работы с несколькими сайтами, написан на PHP (что для меня менее удобно, чем Python) и имеет несколько других недостатков для моего конкретного случая. ситуация.