Что я пытаюсь выполнить:
- HTTP GET содержимое сайта (скажем, google.com)
- Затем создайте какой-нибудь хук или фильтр, который будет перехватывать все ресурсы, которые пытается загрузить эта страница (например, файлы CSS, все файлы JavaScript, все изображения, все фреймы и т. д.).
Первое, что приходит на ум, это проанализировать загруженную страницу/код и извлечь все теги, которые могут ссылаться на ресурс, однако их очень много, и некоторые из них сложны, например, фоновое изображение, объявленное в CSS, например:
body {background-image:url('paper.gif');}
Кроме того, мне нужно перехватить все ресурсы, предназначенные для загрузки через JavaScript. Например, есть функция JS, которая будет генерировать URL-адрес, а затем интерпретировать его для загрузки ресурса.
По этой причине я думаю, что мне нужен какой-то хук или фильтр/монитор.
Язык программирования не имеет значения (хотя было бы неплохо что-то, что работает на Unix-боксе).
ОБНОВЛЕНИЕ: это должно быть автоматизированное решение.
Спасибо.