Публикации по теме 'urllib'


Сбор данных с помощью веб-скрейпинга, веб-сканеров и API (часть 1)
Введение В этой статье будут рассмотрены основные методы удаления данных из Интернета с использованием различных методов, таких как использование поисковых роботов и библиотек, таких как BeautifulSoup, urllib и запросы для эффективного сбора и анализа данных. Все коды находятся в репозитории GitHub, нажмите здесь , чтобы увидеть коды. Веб-парсинг с помощью BeautifulSoup Beautiful Soup - это библиотека Python для извлечения данных из файлов HTML и XML. Он работает с вашим..

Вопросы по теме 'urllib'

urllib2.urlopen() против urllib.urlopen() - urllib2 выдает 404, в то время как urllib работает! ЗАЧЕМ?
import urllib print urllib.urlopen('http://www.reefgeek.com/equipment/Controllers_&_Monitors/Neptune_Systems_AquaController/Apex_Controller_&_Accessories/').read() Приведенный выше скрипт работает и возвращает ожидаемые результаты,...
20964 просмотров

Python и URL-адрес
Я пытаюсь загрузить zip-файл ("tl_2008_01001_edges.zip") с ftp сайт переписи с использованием urllib. В какой форме находится zip-файл, когда я его получаю, и как его сохранить? Я новичок в Python и не понимаю, как работает urllib. Это моя...
11468 просмотров
schedule 11.07.2023

Как мне поймать конкретную ошибку HTTP в Python?
у меня есть import urllib2 try: urllib2.urlopen("some url") except urllib2.HTTPError: <whatever> но в итоге я ловлю любую ошибку HTTP. Я хочу поймать, только если указанная веб-страница не существует (404?).
121802 просмотров
schedule 04.03.2022

Использование urllib и minidom для получения XML-данных
Я пытаюсь получить данные из службы XML... вот этой. http://xmlweather.vedur.is/?op_w=xml&type=forec&lang=is&view=xml&ids=1 Я использую urrlib и minidom, и я не могу заставить его работать. Я использовал minidom с файлами, а не с URL. Это...
10340 просмотров
schedule 04.12.2022

Проблема Python urllib urlencode с æøå
Как я могу urlencode строки со специальными символами æøå? ex. urllib.urlencode('http://www.test.com/q=testæøå') Я получаю эту ошибку :(.. недействительная нестроковая последовательность или объект сопоставления
11375 просмотров
schedule 08.09.2023

Нужно ли кодировать имена параметров формы при выполнении POST?
Быстрая версия: нужно ли кодировать имена параметров "форм", отправляемых с использованием стандартной кодировки multipart/form-data ? Длинная версия: форма загрузки на 1fichier.com (сервис для загрузки больших files) использует следующее,...
709 просмотров
schedule 19.06.2022

Пакетная загрузка текста и изображений с URL-адреса с помощью Python/urllib/beautifulsoup?
Я просматривал несколько сообщений здесь, но я просто не могу понять, как пакетно загружать изображения и текст с заданного URL-адреса с помощью Python. import urllib,urllib2 import urlparse from BeautifulSoup import BeautifulSoup import os, sys...
6353 просмотров
schedule 06.03.2024

Поиск изображения urllib Python3
Я пишу небольшой скрипт Python для захвата изображений через изображения Google. Мне удалось довести дело до того, что у меня есть URL-адреса изображений, которые я хочу, в удобном списке. Теперь мне просто нужно их схватить... для каждого...
4853 просмотров
schedule 30.06.2022

как сделать urlopen через ipv4 по умолчанию
Как сделать urlopen в python, чтобы даже если на базовой машине была включена сеть ipv6, запрос отправлялся через ipv4 вместо ipv6?
2644 просмотров
schedule 29.04.2023

мы можем использовать XPath с BeautifulSoup?
Я использую BeautifulSoup для очистки URL-адреса, и у меня был следующий код import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req =...
199670 просмотров
schedule 12.04.2022

Как исправить эту ошибку IOError: [Errno socket error] [Errno 11004]?
Этот простой скрипт Python 3 : import urllib.request host = "scholar.google.com" link = "/scholar.bib?q=info:K7uZdMSvdQ0J:scholar.google.com/&output=citation&hl=en&as_sdt=1,14&ct=citation&cd=0" url = "http://" + host + link...
8366 просмотров
schedule 29.12.2022

Почему мой доступ к URL не работает?
Итак, у меня есть веб-сайт, и я создаю скрипт python для вставки данных на веб-сайт, отправляя их в скрипт php в качестве запроса GET, но всякий раз, когда я помещаю скрипт без буквенных или числовых символов, например, (@[ ];:) Я получаю сообщение...
214 просмотров
schedule 17.04.2023

Python 3, обработка ошибок запросов urllib
from difflib import * import urllib.request,urllib.parse,urllib.error from urllib.parse import unquote import time import pdb try: file2 = urllib.request.Request('site goes here') file2.add_header("User-Agent", 'Opera/9.61 (Windows NT 5.1;...
27183 просмотров
schedule 01.03.2024

объект модуля urllib не вызывается
Это мой третий проект на Python, и я получил сообщение об ошибке: 'module object' is not callable . Я знаю, что это означает, что я неправильно ссылаюсь на переменную или функцию. Но метод проб и ошибок не помог мне решить эту проблему....
21067 просмотров
schedule 22.11.2023

Как получить большое количество href-ссылок на очень большое содержимое веб-сайта с Beautifulsoup
Я разбираю большой веб-сайт html, на котором есть более 1000 ссылок href. Я использую Beautifulsoup, чтобы получить все ссылки, но во второй раз, когда я снова запускаю программу, beautifulsoup не может с ней справиться. (найдите все конкретные теги...
109 просмотров
schedule 31.03.2022

urllib чтение URL-адреса дает тестовую страницу сервера, когда браузер не
В настоящее время я прохожу отличный Python Challenge ( http://www.pythonchallenge.com/ ). . Текущая проблема, которую я решаю, связана с использованием библиотеки urllib, но у меня возникли проблемы. Я пытаюсь использовать эту библиотеку для...
246 просмотров
schedule 26.07.2023

Вход на веб-сайт с помощью Python (urllib, urllib2, cookielib): как найти необходимую информацию для отправки?
Предисловие: я понимаю, что есть много ответов на подобные вопросы, например, о переполнении стека. Однако я не нашел ничего, касающегося входа в систему aspx, ни точного случая, подобного этому. Проблема: мне нужно определить, какая информация...
1858 просмотров
schedule 05.11.2022

urllib - Обновление с Python2 до Python3
Я попытался адаптировать следующий сценарий . Я получил то, что следовало. #!/usr/bin/python3 import re import csv import urllib.request, urllib.parse class Spreadsheet(object): def __init__(self, key): super(Spreadsheet,...
405 просмотров
schedule 01.03.2022

Как создать параметры URL из списка
У меня есть форма с несколькими полями выбора. Работает методом GET . Пример параметров запроса, сгенерированных формой: action=not-strummed&action=not-rewarded&keywords=test&page=2 Обратите внимание, что есть два параметра...
6059 просмотров
schedule 07.08.2023

Как использовать urllib для заполнения форм и сбора данных?
Я родом из мира научных вычислений и обработки чисел. Я пытаюсь взаимодействовать с Интернетом для сбора данных, поэтому мне это не нужно. Одна из задач — автоматически заполнять поисковые запросы на Marriott.com, чтобы я мог самостоятельно...
2269 просмотров
schedule 17.08.2023