Лучшая библиотека для изучения веб-скрапинга и XML-анализа.

Меня смущает использование нескольких библиотек для одной и той же работы. Я хочу изучить одну библиотеку, которая будет обрабатывать как xml, так и html синтаксический анализ. Do elementtree совместим с парсингом html. Я слышал о lxml, xml.elementtree, beautifulsoup, minidom, scrapy. Кто-нибудь может мне помочь.


person Harry Brar    schedule 03.02.2020    source источник


Ответы (1)


Scrapy используется для очистки веб-страниц (извлечения данных с веб-страниц), отсюда и название.

Beautiful Soup - это библиотека для анализа / извлечения данных из файлов XML и HTML.

xml.elementtree предоставляет объектное представление файла XML и является модулем обработки XML пакета Python XML. Его удобно использовать для анализа и обработки данных в формате XML.

lxml, как они утверждают, совместимый, но превосходит elementtree модуля Python XML, но по сути делает то же самое, однако я никогда не использовал его для синтаксического анализа файлов HTML.

По моему опыту, я использовал Scrapy для получения данных с различных пользовательских панелей, у которых не было какого-либо API для извлечения данных. Однако синтаксический анализ файлов HTML я в основном выполнял с помощью Beautiful Soup, поскольку он действительно аккуратный и простой в использовании. Что касается синтаксического анализа XML, я в основном использовал пакет Python XML, однако мне никогда не приходилось выполнять сложный синтаксический анализ XML, поэтому пакет Python XML покрыл все, что мне нужно.

Правильный инструмент действительно зависит от ваших требований. Если вам нужна библиотека для синтаксического анализа файлов XML и HTML, я бы выбрал Beautiful Soup, поскольку он действительно прост в использовании, и у вас есть обширная документация в Интернете.

person Mil0s    schedule 03.02.2020