Машиночитаемость: рекомендации, которым необходимо следовать, чтобы данные можно было хорошо просмотреть в CKAN.

Каковы рекомендации, которым следует следовать, чтобы данные можно было хорошо просмотреть в инструменте предварительного просмотра данных CKAN? Я работаю над CKAN и загружаю данные или связываю их с внешними веб-сайтами. Некоторые из них можно было просмотреть хорошо, некоторые нет. Я исследовал в Интернете информацию о машиночитаемости и не смог найти никаких ресурсов, относящихся к CKAN, в которых указывается правильный способ структурирования данных, чтобы их можно было хорошо просмотреть в CKAN. Я надеюсь получить ответы от всех вас о том, что можно и чего нельзя делать, чтобы в будущем они пригодились издателям и разработчикам CKAN.

Например, данные должны быть в табличном формате с помеченными строками и столбцами. Данные должны храниться на первой вкладке электронной таблицы, так как другие вкладки недоступны для предварительного просмотра. Электронная таблица не может содержать формулы или макросы. Данные должны храниться в правильном формате файла (см. другую мою тему: Файлы каких форматов можно просмотреть в инструменте предварительного просмотра данных CKAN?)

Спасибо!


person kean23    schedule 19.06.2014    source источник


Ответы (3)


Поскольку CKAN является системой управления данными с открытым исходным кодом, в ней нет конкретных рекомендаций по машиночитаемости данных. Вместо этого вы можете ознакомиться с текущим стандартом открытости данных и машиночитаемости прямо здесь: http://5stardata.info

Реализация CKAN в Великобритании также включает в себя набор плагинов, которые помогают оценить открытость данных на основе схемы открытых данных 5 звезд прямо здесь: https://github.com/ckan/ckanext-qa

person IDA Helpdesk    schedule 25.06.2014

  1. Проверьте журналы отправителя данных. Когда вы размещаете файлы в хранилище данных CKAN — инструмент, который загружает данные в журналы, — это выявит проблемы с форматом данных.
  2. Хранить данные локально — по возможности храните данные локально, поскольку данные, хранящиеся в другом месте, должны проходить через прокси-процесс (https://github.com/okfn/dataproxy), что медленнее и, конечно, зависит от доступности внешнего сайта.
  3. Учитывайте размер файла и возможность подключения. Сохраняйте размер файла достаточно маленьким для установки и подключения, чтобы не истекло время ожидания при загрузке в CKAN Data Explorer. Если файл находится на внешнем хосте и имеет большой размер, а доступ к файлу медленный (плохое подключение или слишком большая нагрузка), вы получите тайм-ауты, поскольку прокси-сервер должен прочитать весь файл, прежде чем он будет представлен для предварительного просмотра. Опять же, локальное размещение данных должно означать лучший контроль над нагрузкой на вычислительные ресурсы и обеспечение стабильной работы обозревателя данных.
  4. Используйте открытые форматы файлов. Если вы используете CKAN для публикации открытых данных, сообщество обычно считает, что лучше всего публиковать данные в открытых форматах (например, CSV, TXT), а не в проприетарных (например, XLS). Помимо расширения доступа к данным для всех пользователей и снижения вероятности того, что данные будут неправильно структурированы для предварительного просмотра, у этого есть и другие преимущества. Например, сложнее случайно опубликовать информацию, которую вы не хотели.
  5. Проверьте свои данные. Используйте такие инструменты, как CSVKIT, чтобы убедиться, что ваши данные в порядке.
person user468648    schedule 25.06.2014

Лучший способ получить хороший опыт предварительного просмотра — начать использовать DataStore. При просмотре удаленных данных CKAN должен использовать DataProxy, чтобы сделать все возможное, чтобы угадать типы данных и преобразовать данные в форму, которую он может просмотреть. Если вы поместите данные в DataStore, в этом нет необходимости, так как данные уже будут иметь хорошую структуру и типы будут установлены (например, вы будете знать, что этот столбец является датой, а не числом).

person Rufus Pollock    schedule 05.07.2014