Я загрузил ZIP-файл, содержащий около 200 000 HTML-файлов, из Companies House.
Каждый файл имеет один из двух форматов: 1) встроенный формат XBRL (расширение файла .html) или 2) формат XBRL (расширение файла .xml). Глядя на последнюю доступную загрузку (6 декабря 2018 г.), все файлы кажутся прежним форматом (расширения файлов .html).
Я использую пакет XBRL в R, чтобы попытаться проанализировать эти файлы.
Вопрос 1: предназначен ли пакет XBRL для разбора файлов встроенного формата XBRL (.html) или он должен работать только с форматами XBRL (.xml)? Если нет, может ли кто-нибудь сказать мне, где искать встроенные файлы формата XBRL? Я не совсем уверен, в чем разница между встроенным и не встроенным.
Предполагая, что пакет XBRL предназначен для анализа встроенных файлов формата XBRL, я сталкиваюсь с ошибкой, сообщающей мне, что xbrl.frc.org.uk/FRS-102/2014-09-01/FRS-102-2014- Файл 09-01.xsd не существует. Вот мой код:
install.packages("XBRL")
library(XBRL)
inst <- "./rawdata/Prod224_0060_00000295_20171130.html" # manually unzipped
options(stringsAsFactors = FALSE)
xbrl.vars <- xbrlDoAll(inst, cache.dir = "XBRLcache", prefix.out = NULL, verbose = TRUE)
и ошибка:
Schema: ./rawdata/https://xbrl.frc.org.uk/FRS-102/2014-09-01/FRS-102-2014-09-01.xsd
Level: 1 ==> ./rawdata/https://xbrl.frc.org.uk/FRS-102/2014-09-01/FRS-102-2014-09-01.xsd
Error in XBRL::xbrlParse(file) :
./rawdata/https://xbrl.frc.org.uk/FRS-102/2014-09-01/FRS-102-2014-09-01.xsd does not exists. Aborting.
Вопрос 2. Может ли кто-нибудь объяснить, что это означает для меня в общих чертах? Я новичок в XBRL. Мне нужно пойти и найти этот файл xsd и поместить его куда-нибудь? Кажется, он находится здесь, но я понятия не имею, что с ним делать и куда его положить.
Вот аналогичный вопрос, на который, похоже, нет полного ответа, и все ссылки на испанском языке и я не знаю испанского.
После того, как я смог проанализировать один файл html XBRL, мой план состоит в том, чтобы выяснить, как анализировать все файлы XBRL внутри нескольких zip-файлов с этого веб-сайта.