Я ищу, чтобы отслеживать популярность темы по очень большому количеству документов. Кроме того, я хотел бы давать пользователям рекомендации, основанные на тематиках, а не на обычной модели набора слов. Для извлечения тем я использую методы обработки естественного языка, которые выходят за рамки этой статьи.
Мой вопрос в том, как мне сохранить эти данные, чтобы: I) я мог быстро получить данные о тенденциях для каждой темы (в принципе, каждый раз, когда пользователь открывает документ, темы в этом документе должны становиться популярнее) II) Я могу быстро сравнить документы, чтобы дать рекомендации (здесь я думаю об использовании методов кластеризации)
В частности, мои вопросы: 1) Следует ли мне использовать обычный способ хранения данных интеллектуального анализа текста? Это означает хранение вектора возникновения темы для каждого документа, чтобы впоследствии я мог измерить евклидово расстояние между различными документами. 2) Другой способ?
Я ищу для этого конкретные способы Python. Я изучал базы данных SQL и NoSQL, а также pytables и h5py, но я не уверен, как я буду реализовывать такую систему. Одна из моих проблем - как справиться с постоянно растущим словарным запасом тем?
Большое Вам спасибо