В мире больших данных распознавание тем и кластеризация нескольких документов, веб-страниц, новостных статей и т. д. чрезвычайно полезны в различных бизнес-приложениях, от поисковых систем до порталов электронной коммерции.

В свете этого мы рады сообщить, что сегодня мы сделали еще один шаг к расширению нашего Intellexer API Service выпуском нового модуля — TopicModeling >Выберите продукт выберите TopicModeling).

TopicModeling – это новое решение для категоризации, которое классифицирует документы по заранее определенным категориям. В настоящее время он работает с готовым набором из 57 тем, разбитых на 10 доменов: экономика, развлечения, окружающая среда, здоровье, образ жизни, наука, общество, спорт, технологии и транспорт.

Что нового?
В отличие от нашего сетевого клиентского приложения Intellexer Summarizer, которое одновременно работает с одним документом и распознает его тему как дополнительную функцию, TopicModeling предназначен для организации нескольких документов путем распознавания их тем и классифицируя их соответствующим образом по определенным категориям.

Проблемы категоризации, которые преодолевает TopicModeling:

  • Документы, которые относятся к нескольким темам или доменам, например. Экономика и политика
  • Слова, которые имеют несколько значений и иногда относятся к разным областям

Мы используем самые современные алгоритмы машинного обучения (ML) в сочетании с большими наборами данных и онтологическими сетями, чтобы обеспечить высочайшую точность распознавания тем.

Примеры:
1. Статья на тему «Экономическая стратегия Шотландии», выбранная TopicModeling для категоризации, помечена им такими темами, как «Экономика» и «Политика».

2. Имея два текста, изобилующие термином «сеть», TopicModeling классифицирует их на 2 разные категории — «ИТ» и «Транспорт», несмотря на частотность слова «сеть» в обоих из них.

IntellexerTM Categorizer — это идеальное решение для управления большим количеством документов, которое можно применять как для личного, так и для делового использования.