Публикации по теме 'web-crawler'
Создание парсеров и поисковых роботов с помощью JavaScript
Добро пожаловать, друзья-авантюристы! Сегодня мы отправляемся в захватывающее путешествие по бескрайней сети, вооружившись нашими парсерами и поисковыми роботами на основе JavaScript. Приготовьтесь погрузиться в мир извлечения данных, где мы найдем скрытые жемчужины и найдем ценную информацию — и все это с капелькой остроумия и юмора!
Хорошо, наденьте детективные шляпы и возьмите свой верный редактор кода. Мы собираемся приступить к миссии по извлечению данных с веб-сайтов, как настоящие..
Автоматическая передача данных о температуре тела в температурную систему школы
Автоматическая передача данных о температуре тела в температурную систему школы
Мотивация
Поскольку случилась пандемия Covid-19, в моей школе требовалось, чтобы каждый ученик сообщал температуру тела в систему отчетности о температуре в период с шести утра до восьми утра каждый божий день, чтобы избежать распространения болезни/вируса. Я считаю эту политику действительно ненужной и бесполезной. Потому что реальную температуру тела никто не сообщит, вместо этого она приносит неприятности..
SPA и SEO: как обрабатывать SEO для одностраничного приложения на примере из реальной жизни.
TL; ДР; Это возможно и не так сложно, как кажется.
Введение
Все началось пару месяцев назад, когда из могилы вернулся давний клиент с конкретной просьбой:
Как мы можем увеличить количество посещений, не оплачивая услуги третьих лиц?
Но прежде позвольте мне объяснить вам ситуацию: Более года назад у этого клиента был сайт, созданный с помощью wordpress, и они больше не хотели его использовать, он был старым, медленным и непригодным для использования. Мы начал создавать..
Вопросы по теме 'web-crawler'
Как написать краулер?
У меня была мысль написать простой поисковый робот, который мог бы сканировать и выдавать список своих результатов для веб-сайтов и контента нашей НКО.
Есть ли у кого-нибудь мысли, как это сделать? Куда вы указываете поисковому роботу, чтобы...
58610 просмотров
schedule
25.05.2022
Обнаружение сканера php
Я пытаюсь написать sitemap.php, который действует по-разному в зависимости от того, кто ищет.
Я хочу перенаправить поисковые роботы на мой sitemap.xml, так как это будет самая обновленная страница и будет содержать всю необходимую им информацию, но...
3214 просмотров
schedule
01.05.2023
ruby + сохранить веб-страницу
Сохранить HTML-код веб-страницы с помощью Ruby очень просто.
Один из способов сделать это с помощью rio:
require 'rubygems'
require 'rio'
rio('http://www.google.com') > rio('google.html')
Можно ли сделать то же самое, проанализировав...
2323 просмотров
schedule
12.08.2023
Как Pricegrabber находит и связывает все продукты?
Я создаю сайт, на котором продавцы будут связывать свои продукты с нашими страницами продуктов (для партнерских продаж), и мне интересно, какие алгоритмы люди используют для автоматизации / облегчения этого процесса? Прямо сейчас им придется вручную...
1261 просмотров
schedule
26.10.2023
Как поисковые системы и агрегаторы путешествий получают свои исходные данные?
Я подбрасываю несколько идей для поисковых систем для путешествий, и мне интересно, как эти сайты получают свои исходные данные. Собирают ли они весь контент с домашних страниц авиакомпаний? Это кажется огромной работой, учитывая количество...
9562 просмотров
schedule
04.04.2024
Лучший сайт-паук?
Я перемещаю кучу сайтов на новый сервер и, чтобы ничего не пропустить, хочу иметь возможность предоставить программе список сайтов и загрузить каждую страницу / изображение с него. Есть ли какое-нибудь программное обеспечение, которое может это...
2625 просмотров
schedule
25.06.2022
Паук, который закидывает результаты в mysql
Я хочу использовать Sphinx для поиска по сайту, но не весь мой сайт находится в MySQL. Вместо того, чтобы изобретать колесо, просто интересно, существует ли паук с открытым исходным кодом, который легко закидывает свои результаты в базу данных mysql,...
362 просмотров
schedule
08.07.2022
Самый оптимизированный способ хранения состояний сканера?
В настоящее время я пишу поисковый робот (используя фреймворк Python scrapy ). Недавно мне пришлось реализовать система паузы/возобновления. Решение, которое я реализовал, является самым простым и, по сути, сохраняет ссылки, когда они запланированы,...
508 просмотров
schedule
16.02.2024
Есть ли список известных поисковых роботов?
Я пытаюсь получить точные цифры загрузки некоторых файлов на веб-сервере. Я смотрю на пользовательские агенты, и некоторые из них явно являются ботами или поисковыми роботами, но многие из них я не уверен, они могут быть или не быть веб-сканерами, и...
15351 просмотров
schedule
05.12.2022
Ползет не рабочая windows2008
Мы установили новую ферму MOSS 2007 в среде Windows 2008 SP2. Мы тоже использовали SQL2008. Конфигурация - 1 индекс, 1 FE и 1 сервер с 2008, все на ESX 4.0. Все службы, которые в этом нуждаются, используют специального пользователя, поэтому у...
277 просмотров
schedule
06.06.2024
Как сканировать Facebook на основе информации о дружбе?
Я аспирант, занимающийся исследованиями сложных сетей. Я работаю над проектом, который включает анализ связей между пользователями Facebook. Можно ли написать сканер для Facebook на основе информации о дружбе?
Я осмотрелся, но пока не нашел...
30993 просмотров
schedule
20.04.2024
php преобразовать все ссылки в абсолютные URL-адреса
Я пишу сканер веб-сайтов на php, и у меня уже есть код, который может извлекать все ссылки с сайта. Проблема: сайты используют комбинацию абсолютных и относительных URL-адресов. Примеры (http заменен на hxxp, так как я не могу публиковать...
2120 просмотров
schedule
31.01.2024
Как просканировать всю Википедию?
Я пробовал приложение WebSphinx.
Я понимаю, что если я поставлю wikipedia.org в качестве начального URL-адреса, он не будет сканироваться дальше.
Следовательно, как на самом деле просканировать всю Википедию? Может ли кто-нибудь дать мне...
18479 просмотров
schedule
06.04.2023
Получение веб-страницы после вызова DownloadStringAsync()?
Я еще недостаточно знаю VB.Net, чтобы использовать более богатый класс HttpWebRequest, поэтому я решил использовать более простой класс WebClient для асинхронной загрузки веб-страниц (чтобы избежать зависания пользовательского интерфейса).
Однако...
2530 просмотров
schedule
22.12.2022
Проблема SEO для нового словарного сайта, Google не проиндексировал контент
Я загрузил около 15 000 страниц, буквы A и B словаря и отправил в Google текстовую карту сайта. Я использую поиск Google с рекламой в качестве запланированного механизма для просмотра моего сайта. Веб-мастер Google принял карты сайтов как хорошие,...
406 просмотров
schedule
18.08.2022
Как извлечь заголовок и контент из просканированной веб-страницы/статьи?
Мне нужны некоторые рекомендации о том, как определить заголовок и содержание просканированных страниц. С тех пор, как я начал работать над этим поисковым роботом, я видел очень странный внешний код.
599 просмотров
schedule
15.11.2023
сканировать веб-сайты из веб-приложения Java без использования bin/nutch
я пытаюсь использовать nutch (1.1) без bin/nutch из моего веб-приложения (java) mojarra 2.0.2... я ищу примеры в google, но нет примеров, как я могу это реализовать:/... я получить исключение, и задание не выполняется: / (я думаю, что-то с хаупом)......
1375 просмотров
schedule
05.06.2022
Как просканировать все страницы моего внутреннего веб-сайта?
Я хочу посетить каждую страницу на моем внутреннем веб-сайте, чтобы увидеть, не выдает ли какая-либо ошибку, просто глядя на них. Веб-сайт ведет собственную регистрацию ошибок, поэтому мне просто нужно что-то, чтобы переходить по ссылкам.
Я...
2576 просмотров
schedule
03.11.2022
Получение изображений с помощью mediawiki apis
Я пытаюсь следовать инструкциям из mediawiki.
Один из использованных ими примеров: http://en.wikipedia.org/w/api.php?action=query&titles=Albert%20Einstein&prop=images
Итак, мне интересно, как мне преобразовать файл: 1919 eclipse Positive.jpg в...
162 просмотров
schedule
28.06.2022
Функция Python на основе Scrapy для полного обхода веб-сайта
Недавно я обнаружил Scrapy , который я считаю очень эффективным. Однако я действительно не понимаю, как встроить его в более крупный проект, написанный на питоне. Я хотел бы создать паука обычным способом, но иметь возможность запускать его по...
1507 просмотров
schedule
16.11.2022