Публикации по теме 'web-crawler'


Создание парсеров и поисковых роботов с помощью JavaScript
Добро пожаловать, друзья-авантюристы! Сегодня мы отправляемся в захватывающее путешествие по бескрайней сети, вооружившись нашими парсерами и поисковыми роботами на основе JavaScript. Приготовьтесь погрузиться в мир извлечения данных, где мы найдем скрытые жемчужины и найдем ценную информацию — и все это с капелькой остроумия и юмора! Хорошо, наденьте детективные шляпы и возьмите свой верный редактор кода. Мы собираемся приступить к миссии по извлечению данных с веб-сайтов, как настоящие..

Автоматическая передача данных о температуре тела в температурную систему школы
Автоматическая передача данных о температуре тела в температурную систему школы Мотивация Поскольку случилась пандемия Covid-19, в моей школе требовалось, чтобы каждый ученик сообщал температуру тела в систему отчетности о температуре в период с шести утра до восьми утра каждый божий день, чтобы избежать распространения болезни/вируса. Я считаю эту политику действительно ненужной и бесполезной. Потому что реальную температуру тела никто не сообщит, вместо этого она приносит неприятности..

SPA и SEO: как обрабатывать SEO для одностраничного приложения на примере из реальной жизни.
TL; ДР; Это возможно и не так сложно, как кажется. Введение Все началось пару месяцев назад, когда из могилы вернулся давний клиент с конкретной просьбой: Как мы можем увеличить количество посещений, не оплачивая услуги третьих лиц? Но прежде позвольте мне объяснить вам ситуацию: Более года назад у этого клиента был сайт, созданный с помощью wordpress, и они больше не хотели его использовать, он был старым, медленным и непригодным для использования. Мы начал создавать..

Вопросы по теме 'web-crawler'

Как написать краулер?
У меня была мысль написать простой поисковый робот, который мог бы сканировать и выдавать список своих результатов для веб-сайтов и контента нашей НКО. Есть ли у кого-нибудь мысли, как это сделать? Куда вы указываете поисковому роботу, чтобы...
58610 просмотров
schedule 25.05.2022

Обнаружение сканера php
Я пытаюсь написать sitemap.php, который действует по-разному в зависимости от того, кто ищет. Я хочу перенаправить поисковые роботы на мой sitemap.xml, так как это будет самая обновленная страница и будет содержать всю необходимую им информацию, но...
3214 просмотров
schedule 01.05.2023

ruby + сохранить веб-страницу
Сохранить HTML-код веб-страницы с помощью Ruby очень просто. Один из способов сделать это с помощью rio: require 'rubygems' require 'rio' rio('http://www.google.com') > rio('google.html') Можно ли сделать то же самое, проанализировав...
2323 просмотров
schedule 12.08.2023

Как Pricegrabber находит и связывает все продукты?
Я создаю сайт, на котором продавцы будут связывать свои продукты с нашими страницами продуктов (для партнерских продаж), и мне интересно, какие алгоритмы люди используют для автоматизации / облегчения этого процесса? Прямо сейчас им придется вручную...
1261 просмотров
schedule 26.10.2023

Как поисковые системы и агрегаторы путешествий получают свои исходные данные?
Я подбрасываю несколько идей для поисковых систем для путешествий, и мне интересно, как эти сайты получают свои исходные данные. Собирают ли они весь контент с домашних страниц авиакомпаний? Это кажется огромной работой, учитывая количество...
9562 просмотров
schedule 04.04.2024

Лучший сайт-паук?
Я перемещаю кучу сайтов на новый сервер и, чтобы ничего не пропустить, хочу иметь возможность предоставить программе список сайтов и загрузить каждую страницу / изображение с него. Есть ли какое-нибудь программное обеспечение, которое может это...
2625 просмотров
schedule 25.06.2022

Паук, который закидывает результаты в mysql
Я хочу использовать Sphinx для поиска по сайту, но не весь мой сайт находится в MySQL. Вместо того, чтобы изобретать колесо, просто интересно, существует ли паук с открытым исходным кодом, который легко закидывает свои результаты в базу данных mysql,...
362 просмотров
schedule 08.07.2022

Самый оптимизированный способ хранения состояний сканера?
В настоящее время я пишу поисковый робот (используя фреймворк Python scrapy ). Недавно мне пришлось реализовать система паузы/возобновления. Решение, которое я реализовал, является самым простым и, по сути, сохраняет ссылки, когда они запланированы,...
508 просмотров

Есть ли список известных поисковых роботов?
Я пытаюсь получить точные цифры загрузки некоторых файлов на веб-сервере. Я смотрю на пользовательские агенты, и некоторые из них явно являются ботами или поисковыми роботами, но многие из них я не уверен, они могут быть или не быть веб-сканерами, и...
15351 просмотров
schedule 05.12.2022

Ползет не рабочая windows2008
Мы установили новую ферму MOSS 2007 в среде Windows 2008 SP2. Мы тоже использовали SQL2008. Конфигурация - 1 индекс, 1 FE и 1 сервер с 2008, все на ESX 4.0. Все службы, которые в этом нуждаются, используют специального пользователя, поэтому у...
277 просмотров
schedule 06.06.2024

Как сканировать Facebook на основе информации о дружбе?
Я аспирант, занимающийся исследованиями сложных сетей. Я работаю над проектом, который включает анализ связей между пользователями Facebook. Можно ли написать сканер для Facebook на основе информации о дружбе? Я осмотрелся, но пока не нашел...
30993 просмотров
schedule 20.04.2024

php преобразовать все ссылки в абсолютные URL-адреса
Я пишу сканер веб-сайтов на php, и у меня уже есть код, который может извлекать все ссылки с сайта. Проблема: сайты используют комбинацию абсолютных и относительных URL-адресов. Примеры (http заменен на hxxp, так как я не могу публиковать...
2120 просмотров
schedule 31.01.2024

Как просканировать всю Википедию?
Я пробовал приложение WebSphinx. Я понимаю, что если я поставлю wikipedia.org в качестве начального URL-адреса, он не будет сканироваться дальше. Следовательно, как на самом деле просканировать всю Википедию? Может ли кто-нибудь дать мне...
18479 просмотров
schedule 06.04.2023

Получение веб-страницы после вызова DownloadStringAsync()?
Я еще недостаточно знаю VB.Net, чтобы использовать более богатый класс HttpWebRequest, поэтому я решил использовать более простой класс WebClient для асинхронной загрузки веб-страниц (чтобы избежать зависания пользовательского интерфейса). Однако...
2530 просмотров
schedule 22.12.2022

Проблема SEO для нового словарного сайта, Google не проиндексировал контент
Я загрузил около 15 000 страниц, буквы A и B словаря и отправил в Google текстовую карту сайта. Я использую поиск Google с рекламой в качестве запланированного механизма для просмотра моего сайта. Веб-мастер Google принял карты сайтов как хорошие,...
406 просмотров
schedule 18.08.2022

Как извлечь заголовок и контент из просканированной веб-страницы/статьи?
Мне нужны некоторые рекомендации о том, как определить заголовок и содержание просканированных страниц. С тех пор, как я начал работать над этим поисковым роботом, я видел очень странный внешний код.
599 просмотров
schedule 15.11.2023

сканировать веб-сайты из веб-приложения Java без использования bin/nutch
я пытаюсь использовать nutch (1.1) без bin/nutch из моего веб-приложения (java) mojarra 2.0.2... я ищу примеры в google, но нет примеров, как я могу это реализовать:/... я получить исключение, и задание не выполняется: / (я думаю, что-то с хаупом)......
1375 просмотров
schedule 05.06.2022

Как просканировать все страницы моего внутреннего веб-сайта?
Я хочу посетить каждую страницу на моем внутреннем веб-сайте, чтобы увидеть, не выдает ли какая-либо ошибку, просто глядя на них. Веб-сайт ведет собственную регистрацию ошибок, поэтому мне просто нужно что-то, чтобы переходить по ссылкам. Я...
2576 просмотров
schedule 03.11.2022

Получение изображений с помощью mediawiki apis
Я пытаюсь следовать инструкциям из mediawiki. Один из использованных ими примеров: http://en.wikipedia.org/w/api.php?action=query&titles=Albert%20Einstein&prop=images Итак, мне интересно, как мне преобразовать файл: 1919 eclipse Positive.jpg в...
162 просмотров
schedule 28.06.2022

Функция Python на основе Scrapy для полного обхода веб-сайта
Недавно я обнаружил Scrapy , который я считаю очень эффективным. Однако я действительно не понимаю, как встроить его в более крупный проект, написанный на питоне. Я хотел бы создать паука обычным способом, но иметь возможность запускать его по...
1507 просмотров
schedule 16.11.2022