Табличные данные с использованием spacy

Я использую Spacy и мне нужна помощь в обучении нашей модели пользовательским объектам, представленным в табличном формате в документе word / pdf.

Я могу обучить его с помощью настраиваемого объекта на примере ЖИВОТНЫХ, и он работает нормально. В этом случае мы предоставляем начальный и конечный индексы вышеупомянутой настраиваемой сущности в данном тексте.

("Horses are too tall and they pretend to care about your feelings", {
    'entities': [(0, 6, 'ANIMAL')]
}),

Мой вопрос возникает в случае табличного формата:
Как я могу дать индексы, как пример ЖИВОТНЫХ?
Кто-нибудь может помочь и помочь?

введите здесь описание изображения


person Tarun    schedule 16.10.2018    source источник


Ответы (2)


После большого количества исследований и статей я нашел способ передать это.

  1. Преобразуйте эту таблицу в текст.
  2. Когда вы конвертируете это как текст. это добавит много пробелов и т. д.
  3. Замените их пробелами.
  4. Это преобразует вашу таблицу в абзац.
  5. Теперь вы можете задавать индексы в виде предложений и обучать свою модель.

Кроме того, вы можете использовать алгоритм парсера зависимостей, чтобы найти правильные значения, связанные с заголовком (в случае, если значения принадлежат нескольким ключам)

person Tarun    schedule 23.10.2018
comment
как вы здесь использовали алгоритм парсера зависимостей? Любой образец кода? - person Sandeep Bhutani; 26.12.2019

Вы также можете просто использовать pd.read_html ([[передайте здесь свой html]]), и это вернет список фреймов данных, которые вы можете использовать.

Спасибо.

person amandeep1991    schedule 17.07.2019