Публикации по теме 'urllib'
Сбор данных с помощью веб-скрейпинга, веб-сканеров и API (часть 1)
Введение
В этой статье будут рассмотрены основные методы удаления данных из Интернета с использованием различных методов, таких как использование поисковых роботов и библиотек, таких как BeautifulSoup, urllib и запросы для эффективного сбора и анализа данных.
Все коды находятся в репозитории GitHub, нажмите здесь , чтобы увидеть коды.
Веб-парсинг с помощью BeautifulSoup
Beautiful Soup - это библиотека Python для извлечения данных из файлов HTML и XML. Он работает с вашим..
Вопросы по теме 'urllib'
urllib2.urlopen() против urllib.urlopen() - urllib2 выдает 404, в то время как urllib работает! ЗАЧЕМ?
import urllib
print urllib.urlopen('http://www.reefgeek.com/equipment/Controllers_&_Monitors/Neptune_Systems_AquaController/Apex_Controller_&_Accessories/').read()
Приведенный выше скрипт работает и возвращает ожидаемые результаты,...
20964 просмотров
schedule
01.12.2022
Python и URL-адрес
Я пытаюсь загрузить zip-файл ("tl_2008_01001_edges.zip") с ftp сайт переписи с использованием urllib. В какой форме находится zip-файл, когда я его получаю, и как его сохранить?
Я новичок в Python и не понимаю, как работает urllib.
Это моя...
11468 просмотров
schedule
11.07.2023
Как мне поймать конкретную ошибку HTTP в Python?
у меня есть
import urllib2
try:
urllib2.urlopen("some url")
except urllib2.HTTPError:
<whatever>
но в итоге я ловлю любую ошибку HTTP. Я хочу поймать, только если указанная веб-страница не существует (404?).
121802 просмотров
schedule
04.03.2022
Использование urllib и minidom для получения XML-данных
Я пытаюсь получить данные из службы XML... вот этой.
http://xmlweather.vedur.is/?op_w=xml&type=forec&lang=is&view=xml&ids=1
Я использую urrlib и minidom, и я не могу заставить его работать. Я использовал minidom с файлами, а не с URL.
Это...
10340 просмотров
schedule
04.12.2022
Проблема Python urllib urlencode с æøå
Как я могу urlencode строки со специальными символами æøå?
ex.
urllib.urlencode('http://www.test.com/q=testæøå')
Я получаю эту ошибку :(..
недействительная нестроковая последовательность или объект сопоставления
11375 просмотров
schedule
08.09.2023
Нужно ли кодировать имена параметров формы при выполнении POST?
Быстрая версия: нужно ли кодировать имена параметров "форм", отправляемых с использованием стандартной кодировки multipart/form-data ?
Длинная версия: форма загрузки на 1fichier.com (сервис для загрузки больших files) использует следующее,...
709 просмотров
schedule
19.06.2022
Пакетная загрузка текста и изображений с URL-адреса с помощью Python/urllib/beautifulsoup?
Я просматривал несколько сообщений здесь, но я просто не могу понять, как пакетно загружать изображения и текст с заданного URL-адреса с помощью Python.
import urllib,urllib2
import urlparse
from BeautifulSoup import BeautifulSoup
import os, sys...
6353 просмотров
schedule
06.03.2024
Поиск изображения urllib Python3
Я пишу небольшой скрипт Python для захвата изображений через изображения Google. Мне удалось довести дело до того, что у меня есть URL-адреса изображений, которые я хочу, в удобном списке. Теперь мне просто нужно их схватить...
для каждого...
4853 просмотров
schedule
30.06.2022
как сделать urlopen через ipv4 по умолчанию
Как сделать urlopen в python, чтобы даже если на базовой машине была включена сеть ipv6, запрос отправлялся через ipv4 вместо ipv6?
2644 просмотров
schedule
29.04.2023
мы можем использовать XPath с BeautifulSoup?
Я использую BeautifulSoup для очистки URL-адреса, и у меня был следующий код
import urllib
import urllib2
from BeautifulSoup import BeautifulSoup
url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html"
req =...
199670 просмотров
schedule
12.04.2022
Как исправить эту ошибку IOError: [Errno socket error] [Errno 11004]?
Этот простой скрипт Python 3 :
import urllib.request
host = "scholar.google.com"
link = "/scholar.bib?q=info:K7uZdMSvdQ0J:scholar.google.com/&output=citation&hl=en&as_sdt=1,14&ct=citation&cd=0"
url = "http://" + host + link...
8366 просмотров
schedule
29.12.2022
Почему мой доступ к URL не работает?
Итак, у меня есть веб-сайт, и я создаю скрипт python для вставки данных на веб-сайт, отправляя их в скрипт php в качестве запроса GET, но всякий раз, когда я помещаю скрипт без буквенных или числовых символов, например, (@[ ];:) Я получаю сообщение...
214 просмотров
schedule
17.04.2023
Python 3, обработка ошибок запросов urllib
from difflib import *
import urllib.request,urllib.parse,urllib.error
from urllib.parse import unquote
import time
import pdb
try:
file2 = urllib.request.Request('site goes here')
file2.add_header("User-Agent", 'Opera/9.61 (Windows NT 5.1;...
27183 просмотров
schedule
01.03.2024
объект модуля urllib не вызывается
Это мой третий проект на Python, и я получил сообщение об ошибке: 'module object' is not callable .
Я знаю, что это означает, что я неправильно ссылаюсь на переменную или функцию. Но метод проб и ошибок не помог мне решить эту проблему....
21067 просмотров
schedule
22.11.2023
Как получить большое количество href-ссылок на очень большое содержимое веб-сайта с Beautifulsoup
Я разбираю большой веб-сайт html, на котором есть более 1000 ссылок href. Я использую Beautifulsoup, чтобы получить все ссылки, но во второй раз, когда я снова запускаю программу, beautifulsoup не может с ней справиться. (найдите все конкретные теги...
109 просмотров
schedule
31.03.2022
urllib чтение URL-адреса дает тестовую страницу сервера, когда браузер не
В настоящее время я прохожу отличный Python Challenge ( http://www.pythonchallenge.com/ ). . Текущая проблема, которую я решаю, связана с использованием библиотеки urllib, но у меня возникли проблемы. Я пытаюсь использовать эту библиотеку для...
246 просмотров
schedule
26.07.2023
Вход на веб-сайт с помощью Python (urllib, urllib2, cookielib): как найти необходимую информацию для отправки?
Предисловие: я понимаю, что есть много ответов на подобные вопросы, например, о переполнении стека. Однако я не нашел ничего, касающегося входа в систему aspx, ни точного случая, подобного этому.
Проблема: мне нужно определить, какая информация...
1858 просмотров
schedule
05.11.2022
urllib - Обновление с Python2 до Python3
Я попытался адаптировать следующий сценарий . Я получил то, что следовало.
#!/usr/bin/python3
import re
import csv
import urllib.request, urllib.parse
class Spreadsheet(object):
def __init__(self, key):
super(Spreadsheet,...
405 просмотров
schedule
01.03.2022
Как создать параметры URL из списка
У меня есть форма с несколькими полями выбора. Работает методом GET . Пример параметров запроса, сгенерированных формой:
action=not-strummed&action=not-rewarded&keywords=test&page=2
Обратите внимание, что есть два параметра...
6059 просмотров
schedule
07.08.2023
Как использовать urllib для заполнения форм и сбора данных?
Я родом из мира научных вычислений и обработки чисел.
Я пытаюсь взаимодействовать с Интернетом для сбора данных, поэтому мне это не нужно. Одна из задач — автоматически заполнять поисковые запросы на Marriott.com, чтобы я мог самостоятельно...
2269 просмотров
schedule
17.08.2023