Руби: есть ли стеммер, который знает английские неправильные глаголы?

Существует рубиновый стеммер https://github.com/aurelian/ruby-stemmer, но он 1) не содержит английских неправильных глаголов 2) не может создавать собственные расширения для Windows. Есть ли альтернатива, устраняющая хотя бы одну из проблем?


person Alexey    schedule 21.12.2010    source источник
comment
Почему? Вы используете его для машинного обучения? Есть ли какие-то исследования, которые показывают, что это поможет?   -  person B Seven    schedule 24.01.2012


Ответы (3)


Я думаю, вам следует искать лемматизатор (который имеет информацию о морфологии и может обрабатывать неправильные слова), а не стеммер (который обычно просто обрезает концы слов). См. это объяснение в онлайн-книге Мэннинга, Рагхавана и Шютце. по информационному поиску.

Я не пробовал, но быстрый поиск наткнулся на этот английский лемматизатор для Ruby: elemma.

Широко используемый (не Ruby) английский морфологический анализатор, который может выполнять лемматизацию, называется morpha. .

person aab    schedule 22.12.2010

Ни один из стеммеров не может обрабатывать неправильные глаголы в английском языке.

  • https://github.com/ealdent/uea-stemmer — чисто рубиновый, хорошо написанный, Год 2009, документации мало, но чуть больше других, устанавливается на Windows нормально
  • https://github.com/romanbsd/fast-stemmer чистый C, трудный для чтения, должен чтобы быть быстрее других (производительность не проверял), с 2009 года, имеет очень минимальную документацию, устанавливается на Windows нормально. У этого метода есть побочные эффекты. будьте осторожны, чтобы создать копию
  • https://github.com/aurelian/ruby-stemmer 2010 год, не удается собрать собственный расширения в Windows. Может обрабатывать некоторые другие европейские языки, кроме английского
  • http://rubyforge.org/projects/stemmer чистый рубин, не обновлялся с 2006 года и не документации нет, в винде нормально устанавливается, не разобрался как работает
  • http://rubyforge.org/projects/stemmer4r - без документов, 2005 год. не пробовал
person Community    schedule 21.12.2010

я нашел это, когда искал НЛП на основе ruby ​​http://mendicantbug.com/2009/09/13/nlp-resources-for-ruby/

person Magesh    schedule 05.04.2011