Публикации по теме 'beautifulsoup'


Как использовать Decompose в BeautifulSoup для фильтрации данных
У меня была ситуация, когда мне нужно было выполнить фильтрацию из поискового робота, который я создал с помощью BeautifulSoup. Для этого конкретного проекта я сканирую и собираю данные с разных веб-сайтов. Это означает, что вряд ли каждый веб-сайт, с которым я сталкиваюсь, будет иметь подобную структуру. Поэтому у меня не было гибкого решения для фильтрации нежелательных данных. Что делает метод .decompose()? В Python .decompose() — это метод, предоставляемый библиотекой Beautiful..

Аренда дома  — метод науки о данных Часть 1: очистить все с помощью python и BeautifulSoup
В прошлом году я переехал из своего прежнего дома в новый город и сменил работу. Все произошло так быстро, что у меня была всего пара недель, чтобы найти жилье перед тем, как приступить к работе. В этой спешке у меня не было достаточно времени, чтобы понять рынок недвижимости в городе, и в итоге я выбрал жилье, которое лучше сбалансировало расстояние от работы и услуг. Но… ну… жилье довольно маленькое, и я подумал, что я слишком много плачу за этот дом. Но я только догадывался!..

Сбор данных с помощью веб-скрейпинга, веб-сканеров и API (часть 1)
Введение В этой статье будут рассмотрены основные методы удаления данных из Интернета с использованием различных методов, таких как использование поисковых роботов и библиотек, таких как BeautifulSoup, urllib и запросы для эффективного сбора и анализа данных. Все коды находятся в репозитории GitHub, нажмите здесь , чтобы увидеть коды. Веб-парсинг с помощью BeautifulSoup Beautiful Soup - это библиотека Python для извлечения данных из файлов HTML и XML. Он работает с вашим..

Веб-парсинг в Python
Введение В настоящее время мир движется к науке о данных и машинному обучению. Топливо, которое требуется для этих полей, - это данные, и мы получаем данные из следующих двух основных источников: 1) Использование API: Эти API доступны на различных веб-сайтах, которые позволяют извлекать данные. Пример: API графа Facebook 2) Веб-парсинг: В этом методе веб-страница очищается для извлечения полезной информации. Этот метод называется парсингом, сбором веб-данных или..

Вопросы по теме 'beautifulsoup'

Почему я получаю, что «ResultSet» не имеет атрибута «findAll», используя BeautifulSoup в Python?
Поэтому я медленно изучаю Python и пытаюсь создать простую функцию, которая будет получать данные со страницы рекордов онлайн-игры. Это чужой код, который я переписал в одну функцию (что может быть проблемой), но я получаю эту ошибку. Вот код:...
15277 просмотров
schedule 10.06.2023

Сайты парсинга, требующие поддержки javascript
Возможный дубликат: Скребок экрана с веб-страницы с большим количеством Javascript Я просто хочу выполнять такие задачи, как ввод формы и веб-скрапинг, но на сайтах, требующих поддержки javascript. И мне также нужно вводить формы,...
2706 просмотров

Как получить все строки из определенной таблицы с помощью BeautifulSoup?
Я изучаю Python и BeautifulSoup, чтобы собирать данные из Интернета и читать HTML-таблицу. Я могу прочитать его в Open Office, и там написано, что это Таблица №11. Кажется, что BeautifulSoup является предпочтительным выбором, но может ли...
48245 просмотров
schedule 03.03.2023

Как заставить BeautifulSoup анализировать содержимое тегов textarea как HTML?
До версии 3.0.5 BeautifulSoup обрабатывал содержимое ‹textarea> как HTML. Теперь он воспринимает это как текст. В документе, который я разбираю, есть HTML внутри тегов textarea, и я пытаюсь его обработать. Я пробовал: for textarea in...
4531 просмотров
schedule 13.05.2022

Как добавить тег после ссылки с BeautifulSoup
Начиная с ввода Html следующим образом: <p> <a href="http://www.foo.com">this if foo</a> <a href="http://www.bar.com">this if bar</a> </p> используя BeautifulSoup, я хотел бы изменить этот Html в:...
4671 просмотров
schedule 25.12.2023

Извлечение href из атрибута с помощью BeatifulSoup
я использую этот метод allcity = dom.body.findAll(attrs={'id' : re.compile("\d{1,2}")}) чтобы вернуть такой список: [<a onmousedown="return...
468 просмотров
schedule 25.03.2023

BeautifulSoup или HTML-таблица регулярного выражения для структуры данных?
У меня есть таблица HTML, из которой я пытаюсь проанализировать информацию. Однако некоторые таблицы охватывают несколько строк/столбцов, поэтому я хотел бы использовать что-то вроде BeautifulSoup для анализа таблицы в какой-либо тип структуры...
957 просмотров
schedule 28.08.2022

Использование BeautifulSoup для извлечения текста между разрывами строк (например, теги ‹br /›)
У меня есть следующий HTML-код, который находится в более крупном документе <br /> Important Text 1 <br /> <br /> Not Important Text <br /> Important Text 2 <br /> Important Text 3 <br /> <br /> Non...
35483 просмотров
schedule 17.05.2022

Есть ли чистый способ получить n-й столбец html-таблицы с помощью BeautifulSoup?
Скажем, мы смотрим на первую таблицу на странице, поэтому: table = BeautifulSoup(...).table строки можно сканировать с помощью чистого цикла for: for row in table: f(row) Но для получения одного столбца все становится грязным....
1413 просмотров
schedule 18.04.2023

Как открыть HTML-страницу с кодировкой Windows-1252 в BeautifulSoup
Я пытаюсь разобрать HTML-документ с помощью BeautifulSoup, но у меня возникают проблемы. Как лучше всего открыть HTML-документ с кодировкой Windows-1252? Я пытался с помощью iconv конвертировать в utf-8, но это тоже не работает. doc =...
2358 просмотров
schedule 18.05.2024

python BeautifulSoup находит имя идентификатора диапазона без использования методов string\re
Я пытаюсь получить идентификатор имени моих тегов span. <td vAlign="top" colSpan="2"><IMG height="25" src="images/spacer.gif" width="1"><br> <!--start table details--> <table cellSpacing="1" cellPadding="5"...
1359 просмотров

удалить определенные атрибуты из тегов HTML
Как удалить определенные атрибуты, такие как идентификатор, стиль, класс и т. д., из кода HTML? Я думал, что смогу использовать модуль lxml.html.clean , но, как оказалось, out Я могу удалить атрибуты стиля только с помощью...
3898 просмотров
schedule 04.09.2022

Пакетная загрузка текста и изображений с URL-адреса с помощью Python/urllib/beautifulsoup?
Я просматривал несколько сообщений здесь, но я просто не могу понять, как пакетно загружать изображения и текст с заданного URL-адреса с помощью Python. import urllib,urllib2 import urlparse from BeautifulSoup import BeautifulSoup import os, sys...
6353 просмотров
schedule 06.03.2024

Только Firefox отображает HTML-код, а не страницу
У меня сложная проблема, на которую я не могу найти ответ. У меня работает Python HTTPServer, который обслуживает веб-страницы. Эти веб-страницы создаются во время выполнения с помощью Beautiful Soup. Проблема в том, что Firefox показывает...
1025 просмотров

Python Beautiful Soup не работает
У меня есть простая потребность. Я просто хочу узнать все теги из источника HTML, который не имеет типа локатора «вход». Например, я просто хочу соответствовать <input> Приведенный выше код должен отображать текстовое поле. Опять же,...
74 просмотров
schedule 07.02.2023

Извлечь значение из очищенной веб-страницы
Первая попытка использовать python, и после дня гугления мой старый мозг еще больше запутался. Я использовал pycurl для регистрации через прокси-сервер ntlm и очистку страницы, а затем использовал BeautifulSoup, чтобы украсить результат. Я хочу...
203 просмотров
schedule 15.05.2022

Передача вызова метода в качестве переменной функции обработки ошибок
Пытаюсь реализовать простую обработку ошибок, не добавляя в свой код операторы buku try/except. Моя функция if_error пытается эмулировать формулу iferror(value,value_if_error) в Excel. If the value (another formula) is valid, return its...
224 просмотров
schedule 25.05.2022

Установил python3-BeautifulSoup-1:3.2.0-4.fc16 в Fedora 16, но не могу его использовать
Я установил BeautifulSoup для Python 3 (python3-BeautifulSoup-1:3.2.0-4.fc16) на Fedora 16 (64-разрядная версия) с помощью графического инструмента «Установка и удаление программного обеспечения». Похоже, он установлен правильно (информация yum...
1077 просмотров
schedule 05.11.2023

Ошибка глубины рекурсии при использовании BeautifulSoup с картой многопроцессорного пула
Я использую BeautifulSoup для разбора html-файлов, в то время как все скрипты, которые я пишу, работают хорошо, но медленно. Поэтому я экспериментирую с использованием многопроцессорного пула рабочих вместе с BeautifulSoup, чтобы моя программа могла...
2683 просмотров
schedule 17.04.2024

Невозможно загрузить сервер apache при загрузке внешних модулей в классе
Это моя иерархия проектов django project/ apache/ django.wsgi project/ __init__.py, settings.py, urls.py .. pages/ __init__.py widgets.py website_views.py services/...
165 просмотров