Будет ли мой скрипт отправлять много запросов?

В настоящее время у меня есть скрипт, который очищает данные с веб-сайта, посещая URL-адрес, а затем очищая определенную часть информации. Единственное, что меня беспокоит, это то, что, поскольку нужно очистить примерно 30 000 страниц, сервер может воспринять это как DDoS-атаку? Кроме того, мне порекомендовали использовать драгоценный камень Typhoeus для рубина, чтобы выполнить их все практически одновременно. Так что мне просто интересно, должно ли это быть в порядке?


person HarryLucas    schedule 20.05.2014    source источник
comment
Хммм, зависит от того, как часто вы удаляете данные с этого сайта :)   -  person Ardi Goxhaj    schedule 20.05.2014
comment
Технически это не будет DDOS-атакой, поскольку первая буква D означает «распределенный» — это означает, что запросы поступают с нескольких машин. Все ваши сообщения будут поступать с одного и того же хоста, что, я думаю, с меньшей вероятностью вызовет предупреждение. Тем не менее, частота запросов может быть проблемой, особенно если тифей отправляет нагрузки сразу в параллельных потоках (или что-то еще). Возможно, вам лучше не использовать тифой, если вы беспокоитесь о срабатывании тревоги, а вместо этого просто оставьте свой скрипт работать на ночь.   -  person Max Williams    schedule 20.05.2014
comment
Иногда может помочь, если вы добавите немного sleep после определенного количества запросов.   -  person Oto Brglez    schedule 20.05.2014
comment
@MaxWilliams, да, я об этом и думал. Я считаю, что лучшим методом было бы очищать каждое шоу только в том случае, если пользователь следил за этим шоу, поэтому за одно сканирование (один раз в день) можно получить, возможно, 200, а не 30 тысяч. Это звучит намного безопаснее? и я бы не стал использовать для этого тифоз, так как 200 займет всего пару минут.   -  person HarryLucas    schedule 20.05.2014
comment
Это то, чем вы собираетесь заниматься на постоянной основе? Я предположил, что это был разовый сбор данных. Я так понимаю API нет? Очевидно, это было бы намного чище. Долгосрочный парсинг очень подвержен ошибкам, поскольку он может быть нарушен в любое время, когда они обновляют веб-сайт: это лаваш для обслуживания.   -  person Max Williams    schedule 20.05.2014
comment
@MaxWilliams Я новичок в рельсах и программировании, и я просто пытаюсь узнать, как все работает. Я действительно не ожидаю, что это будет длительный проект, но я хочу, чтобы приложение работало хотя бы какое-то время.   -  person HarryLucas    schedule 20.05.2014
comment
Прохладно. Соскребание данных - хорошее упражнение :)   -  person Max Williams    schedule 20.05.2014


Ответы (1)


Атака DDoS не может быть выполнена одной машиной, поскольку DDoS означает распределенный отказ в обслуживании. Таким образом, в худшем случае это может быть распознано как DoS-атака, что маловероятно, если только вы не используете огромное количество потоков для выполнения вызовов страниц.

Один поток, используемый вашим ботом, даже не является проблемой для настроенного по умолчанию апача, потому что я думаю, что количество подключений на хост ограничено 10. Используя 1 поток, вы устанавливаете только одно соединение за другим, поэтому вы даже не достигаете ограничения для одного хоста. Обычный браузер может по умолчанию устанавливать больше соединений, загружая ресурсы веб-страницы после получения html-файла. Подводя итог: нет, с точки зрения администратора веб-сервера, вы не выглядите злоумышленником.

person davidb    schedule 20.05.2014
comment
Добро пожаловать... если вас интересует, как вообще работают атаки D(D)oS на веб-серверы, вы можете найти эти ключевые слова для распространенных сценариев: SYN-Flood, атаки с усилением UDP, атака с медленным чтением (GET), атака с медленной записью (POST) . - person davidb; 20.05.2014