Мне трудно понять процесс создания мешка слов. Это будет задача машинного обучения с мультиклассовой классификацией, в которой веб-страница или фрагмент текста относятся к одной категории из нескольких заранее определенных категорий. Теперь метод, с которым я знаком при создании набора слов для определенной категории (например, «Математика»), состоит в том, чтобы собрать множество веб-страниц, связанных с математикой. Оттуда я выполнял некоторую обработку данных (например, удалял стоп-слова и выполнял TF-IDF), чтобы получить набор слов для категории «Математика».
Вопрос: Другой метод, о котором я думаю, состоит в том, чтобы вместо этого искать в Google что-то вроде «Списка терминов, связанных с математикой», чтобы составить набор слов. Я хотел бы спросить, если этот метод в порядке?
Другой вопрос: в контексте этого вопроса набор слов и корпус означают одно и то же?
Заранее спасибо!