Лучшая библиотека для изучения веб-скрапинга и XML-анализа.

Меня смущает использование нескольких библиотек для одной и той же работы. Я хочу изучить одну библиотеку, которая будет обрабатывать как xml, так и html синтаксический анализ. Do elementtree совместим с парсингом html. Я слышал о lxml, xml.elementtree, beautifulsoup, minidom, scrapy. Кто-нибудь может мне помочь.

Harry Brar 03.02.2020 источник

Ответы (1)

arrow_upward
0
arrow_downward

Scrapy используется для очистки веб-страниц (извлечения данных с веб-страниц), отсюда и название.

Beautiful Soup - это библиотека для анализа / извлечения данных из файлов XML и HTML.

xml.elementtree предоставляет объектное представление файла XML и является модулем обработки XML пакета Python XML. Его удобно использовать для анализа и обработки данных в формате XML.

lxml, как они утверждают, совместимый, но превосходит elementtree модуля Python XML, но по сути делает то же самое, однако я никогда не использовал его для синтаксического анализа файлов HTML.

По моему опыту, я использовал Scrapy для получения данных с различных пользовательских панелей, у которых не было какого-либо API для извлечения данных. Однако синтаксический анализ файлов HTML я в основном выполнял с помощью Beautiful Soup, поскольку он действительно аккуратный и простой в использовании. Что касается синтаксического анализа XML, я в основном использовал пакет Python XML, однако мне никогда не приходилось выполнять сложный синтаксический анализ XML, поэтому пакет Python XML покрыл все, что мне нужно.

Правильный инструмент действительно зависит от ваших требований. Если вам нужна библиотека для синтаксического анализа файлов XML и HTML, я бы выбрал Beautiful Soup, поскольку он действительно прост в использовании, и у вас есть обширная документация в Интернете.

Mil0s 03.02.2020

Лучшая библиотека для изучения веб-скрапинга и XML-анализа.

Ответы (1)

Похожие вопросы