Во время работы над проектом мне нужно загружать и обрабатывать полнотекстовые статьи для рефератов PubMed, есть ли какой-либо реализованный код или инструмент, который позволяет пользователю вводить набор идентификаторов PubMed и загружать бесплатные полнотекстовые статьи для них. Любая помощь или советы приветствуются.
Полнотекстовые PDF-файлы для статей PubMed
Ответы (2)
Я не думаю, что это вообще возможно из-за природы PubMed. Лучшее, что вы можете сделать, это получить статьи из подмножества открытого доступа PubMedCentral. В PubMedCentral есть количество онлайн-утилит для выполнения этой работы.
Утилиты, на которые указывает StompChicken, предназначены для издателей для проверки их XML перед отправкой в PMC, они не являются инструментами для загрузки.
Обратите внимание, что подавляющее большинство статей в PMC не являются открытым доступом (ОД) и поэтому не могут быть загружены автоматически (легально) любыми способами. NCBI предупреждает:
- Большинство статей в PMC подпадают под традиционные ограничения авторского права и не являются частью этого подмножества. Прочтите Уведомление об авторских правах PMC для получения дополнительной информации.
- Служба PMC OAI и служба PMC FTP являются единственными службами, которые можно использовать для автоматической загрузки статей из этого подмножества открытого доступа.
- Систематическое извлечение (массовая загрузка) статей с помощью любого другого автоматизированного процесса запрещено, даже если вы извлекаете статьи только из этого подмножества.
- Некоторые журналы используют ярлык «открытый доступ» для статьи, которая доступна бесплатно на момент публикации, но по-прежнему подпадает под традиционные ограничения авторского права. Такие статьи не являются частью этого подмножества.
Для загрузки содержимого PMC лучше всего использовать службу PMC Open Access FTP: http://www.ncbi.nlm.nih.gov/pmc/tools/ftp/
Вы также можете использовать eutils, чтобы запросить PMC и загрузить полный текст подмножества OA, а также рефераты остальных: http://eutils.ncbi.nlm.nih.gov/corehtml/query/static/efetchlit_help.html
Другой альтернативой является использование службы OAI: http://www.ncbi.nlm.nih.gov/pmc/tools/oai/
Служба OAI ужасно документирована, но несколько советов для начала можно найти здесь: http://www.biostars.org/p/2076/#13338
Если вы хотите поддерживать и обновлять репозиторий PMC, попробуйте pubtools: http://code.google.com/p/pubtools/