Полнотекстовые PDF-файлы для статей PubMed

Во время работы над проектом мне нужно загружать и обрабатывать полнотекстовые статьи для рефератов PubMed, есть ли какой-либо реализованный код или инструмент, который позволяет пользователю вводить набор идентификаторов PubMed и загружать бесплатные полнотекстовые статьи для них. Любая помощь или советы приветствуются.


person Shreyas Karnik    schedule 14.01.2011    source источник


Ответы (2)


Я не думаю, что это вообще возможно из-за природы PubMed. Лучшее, что вы можете сделать, это получить статьи из подмножества открытого доступа PubMedCentral. В PubMedCentral есть количество онлайн-утилит для выполнения этой работы.

person Stompchicken    schedule 15.01.2011
comment
Вы захотите использовать конвертер идентификаторов PubMed в PMC, чтобы получить нужные PMCids, а затем использовать их электронные утилиты, как говорит StompChicken. - person Eddie Welker; 16.01.2011
comment
Многие статьи, на которые есть ссылки в PubMed, не находятся в свободном доступе. Даже если в вашей библиотеке есть нужные подписки, их массовая загрузка представляет собой проблему, потому что издатели не знают, что вы делаете это не с учетом нарушения авторских прав или лицензии. Насколько я понимаю, они заблокируют порт, что может привести к неловкому последствию закрытия всего кампуса. Text Mining является законным использованием. Свяжитесь со своими издателями. А еще лучше, поддержите свои журналы открытого доступа. - person Chris; 13.09.2011

Утилиты, на которые указывает StompChicken, предназначены для издателей для проверки их XML перед отправкой в ​​PMC, они не являются инструментами для загрузки.

Обратите внимание, что подавляющее большинство статей в PMC не являются открытым доступом (ОД) и поэтому не могут быть загружены автоматически (легально) любыми способами. NCBI предупреждает:

  • Большинство статей в PMC подпадают под традиционные ограничения авторского права и не являются частью этого подмножества. Прочтите Уведомление об авторских правах PMC для получения дополнительной информации.
  • Служба PMC OAI и служба PMC FTP являются единственными службами, которые можно использовать для автоматической загрузки статей из этого подмножества открытого доступа.
  • Систематическое извлечение (массовая загрузка) статей с помощью любого другого автоматизированного процесса запрещено, даже если вы извлекаете статьи только из этого подмножества.
  • Некоторые журналы используют ярлык «открытый доступ» для статьи, которая доступна бесплатно на момент публикации, но по-прежнему подпадает под традиционные ограничения авторского права. Такие статьи не являются частью этого подмножества.

Для загрузки содержимого PMC лучше всего использовать службу PMC Open Access FTP: http://www.ncbi.nlm.nih.gov/pmc/tools/ftp/

Вы также можете использовать eutils, чтобы запросить PMC и загрузить полный текст подмножества OA, а также рефераты остальных: http://eutils.ncbi.nlm.nih.gov/corehtml/query/static/efetchlit_help.html

Другой альтернативой является использование службы OAI: http://www.ncbi.nlm.nih.gov/pmc/tools/oai/

Служба OAI ужасно документирована, но несколько советов для начала можно найти здесь: http://www.biostars.org/p/2076/#13338

Если вы хотите поддерживать и обновлять репозиторий PMC, попробуйте pubtools: http://code.google.com/p/pubtools/

person C. Bergman    schedule 10.01.2012
comment
Спасибо за комментарий, наверняка многим поможет :) - person Shreyas Karnik; 05.03.2012