Получите отдельный список слов и подсчитайте из документов MS Office с помощью С#

Я ищу эффективный способ чтения необработанного текста из любого документа MS Office (word, excel или powerpoint), а затем отображения отдельного списка слов и подсчета того, сколько раз это слово используется. Если возможно, я хотел бы иметь возможность исключить общие слова («и», «к», «и т. д.»).

Каков наилучший способ добиться этого на С#?


person Andrew    schedule 13.07.2009    source источник


Ответы (1)


Вам следует заглянуть в Lucene.NET — он позволяет создавать индексы слов из множества источников - включая, я полагаю, текстовые документы.

person LBushkin    schedule 13.07.2009