парсинг размеров из текстовых данных

Я хочу извлечь размеры из текстовых данных («ракета была длиной пятьдесят пять дюймов» или «он весил девять с половиной фунтов») и преобразовать их в данные в формате, используемом программой.

Как это сделать? Есть ли полезные библиотеки?

А насколько сложна эта задача?


person Alex Brooks    schedule 21.07.2011    source источник


Ответы (1)


Вы можете подойти к этому как к проблеме извлечения информации (IE). В этом случае основной подход состоит в том, чтобы сформулировать набор регулярных выражений, которые приблизительно описывают проблему, и уточнять их до тех пор, пока они не станут достаточно хорошими или вы не сможете продвинуться дальше.

Или вы можете ваш любимый синтаксический анализатор и посмотреть, какие деревья / структуры зависимостей он создает для предложений, которые вам нужны, выяснить общий шаблон, проверить, насколько хорошо он работает, и, возможно, отфильтровать результаты с помощью регулярное выражение или какой-либо предикат для возвращаемой структуры.

person Fred Foo    schedule 21.07.2011