Уроки, извлеченные из изучения сотен веб-сайтов.

За последние несколько лет я участвовал в сотнях проектов веб-скрапинга. Тем временем я столкнулся с множеством проблем со скребком.

В этом посте я перечислю некоторые проблемы парсинга и надеюсь, что они помогут вам в следующем интервью.

1. Изменение структуры

Чтобы обеспечить лучший опыт чтения, большинство веб-сайтов часто меняют свою веб-структуру. В таком случае нам нужно настроить нашу программу веб-паука по мере изменения веб-страницы, даже в случае незначительных изменений.

Чтобы распознать изменения как можно скорее, мы обычно отслеживаем некоторые важные поля. Еще один совет: всегда следите за тем, чтобы дизайн наших пауков был как можно более надежным, чтобы справляться с любыми потенциальными ошибками на целевых веб-сайтах.

2. Визуализированный контент Javascript

Реализация простого синтаксического анализа на веб-странице иногда не дает нужных данных. Потому что данные на этих сайтах, вероятно, загружаются с помощью Javascript.

Для парсинга таких веб-сайтов часто требуется выполнение кода JavaScript. Например, работают скриптовые безголовые браузеры, такие как Splash.

Я рекомендую посмотреть следующее видео, чтобы ознакомиться с Splash.

Это супер легко!

Конечно, некоторые другие доступные инструменты заслуживают того, чтобы их попробовать.

3. Защита от царапин

Чтобы избежать блокировки, очень полезен следующий метод защиты от скрейпинга.

  • Измените IP-адрес вашего прокси
  • Переключение между различными User-Agent
  • Взломать капчу
  • Войдите, если необходимо


4. Распределенное веб-сканирование

Большинство современных поисковых систем, таких как Google и Yahoo, используют тысячи серверов для сканирования Интернета.

Когда одному серверу сложно сканировать сотни миллионов веб-страниц, нам нужен распределенный веб-сканер.



5. Обратный инженер

Обратный инжиниринг иногда требуется при сканировании некоторых мобильных приложений.



Если вам понравилась эта статья, похлопайте, чтобы ее увидели другие. 💚