Есть ли способ получить исходные текстовые данные для OpenNLP?

Я знаю, что этот вопрос задавался раньше, но ответ не был удовлетворительным (в том смысле, что ответ был просто ссылкой).

Итак, мой вопрос: есть ли способ расширить существующие модели openNLP? Я уже знаю о технике с DBPedia / Wikipedia. Но что, если я просто хочу добавить несколько строк текста, чтобы улучшить модели - неужели нет никакого способа? (Если так - это было бы действительно глупо ...)


person Fabian Lurz    schedule 19.09.2015    source источник


Ответы (2)


К сожалению, нет. См. этот вопрос, в котором есть подробный ответ на ту же проблему. .

Я думаю, что это серьезная проблема, потому что, когда вы работаете с текстами, часто возникают проблемы с лицензированием. Например, вы не можете создать корпус данных Twitter и опубликовать его в сообществе (см. этот документ для получения дополнительной информации).

Поэтому часто компании создают корпуса для конкретных доменов и используют их для внутренних целей. Например, мы это сделали в нашем исследовательском проекте. Поэтому мы создали инструмент (Quick Pad Tagger) для эффективного создания аннотированных корпусов (см. здесь).

person schrieveslaach    schedule 22.09.2015
comment
Вау, ладно. Спасибо за вашу помощь. Это действительно отстой !!! openNLP принесет большую пользу, если больше людей будут тренировать модели! - person Fabian Lurz; 22.09.2015
comment
Я предоставил дополнительную информацию (см. Обновленный ответ). Я надеюсь, что это будет вам полезно. Не могли бы вы отметить ответ как правильный? - person schrieveslaach; 22.09.2015
comment
Конечно :) Я забыл об этом. Спасибо большое за вашу помощь. Я работаю прямо сейчас, но подробнее рассмотрю ссылки позже! Ваши оценки F впечатляют! Gj на этом - person Fabian Lurz; 22.09.2015
comment
Я только что понял, что это действительно круто :) Есть ли ссылка на скачивание? Я хочу попробовать этот инструмент - person Fabian Lurz; 22.09.2015
comment
Ах - извините за то, что так много разместил - ›определенно взгляните на базу данных yago. Это открытый исходный код, и я думаю, что вы можете каким-то образом использовать его для обучения моделей. - person Fabian Lurz; 22.09.2015
comment
Можете ли вы написать мне электронное письмо (первый автор статьи) и обсудить, как вы можете получить этот инструмент. Я действительно хотел бы открыть исходный код инструмента, но у меня еще нет разрешения. - person schrieveslaach; 22.09.2015
comment
@FabianLurz, к сведению, вы можете попробовать NLPf. - person schrieveslaach; 13.08.2018

Хорошо, думаю, на это нужен отдельный ответ. Я нашел базу данных Yago: http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/research/yago-naga/yago//

Эта база данных кажется просто фантастической (на первый взгляд). Вы можете скачать все данные с тегами и поместить их в базу данных (они уже предоставляют инструменты для этого).

Следующим этапом является «рефакторинг» помеченных сущностей, чтобы opennlp мог их использовать (openNLP использует sth. Как это <START:person> Pierre Vinken <END>)

Затем вы создаете несколько текстовых файлов и обучаете их с помощью учебного инструмента, поставляемого opennlp.

Не уверен на 100%, что это сработает, но я вернусь и скажу вам.

person Fabian Lurz    schedule 22.09.2015
comment
Привет ! не могли бы вы уточнить, как использовать эти данные для обучения моделей OpenNLP? - person Abhishek Sengupta; 25.02.2020