Я пытаюсь разработать лучшую модель для адаптации к проблеме распознавания открытых именованных сущностей (биология / химия, поэтому словаря сущностей не существует, но они должны быть идентифицированы по контексту).
В настоящее время я лучше всего предполагаю адаптировать Syntaxnet так, чтобы вместо маркировки слов как N, V, ADJ и т. Д. Он учился маркировать как BEGINNING, INSIDE, OUT (нотация IOB).
Однако я не уверен, какой из этих подходов лучший?
- Syntaxnet
- word2vec
- seq2seq (я думаю, что это не тот вариант, поскольку мне нужно, чтобы он учился на двух выровненных последовательностях, тогда как seq2seq предназначен для последовательностей разной длины, как при переводе)
Был бы признателен за указатель на нужный метод! Благодарность!