Поиск списка терминов с помощью Google для создания набора слов для определенной категории.

Мне трудно понять процесс создания мешка слов. Это будет задача машинного обучения с мультиклассовой классификацией, в которой веб-страница или фрагмент текста относятся к одной категории из нескольких заранее определенных категорий. Теперь метод, с которым я знаком при создании набора слов для определенной категории (например, «Математика»), состоит в том, чтобы собрать множество веб-страниц, связанных с математикой. Оттуда я выполнял некоторую обработку данных (например, удалял стоп-слова и выполнял TF-IDF), чтобы получить набор слов для категории «Математика».

Вопрос: Другой метод, о котором я думаю, состоит в том, чтобы вместо этого искать в Google что-то вроде «Списка терминов, связанных с математикой», чтобы составить набор слов. Я хотел бы спросить, если этот метод в порядке?

Другой вопрос: в контексте этого вопроса набор слов и корпус означают одно и то же?

Заранее спасибо!




Ответы (1)


Это не то, что мешок слов. Набор слов — это термин, описывающий особый способ представления данного документа. А именно, документ (абзац, предложение, веб-страница) представлен как отображение формы

word: how many times this word is present in a document

например, «Джон любит кошек и любит собак» будет представлено как: {Джон: 1, любит: 2, кошки: 1 и: 1, собаки: 1}. Этот тип представления можно легко использовать в типичных методах ML (особенно если предположить, что общий словарь конечен, поэтому мы получаем числовые векторы).

Обратите внимание, что речь идет не о "создании набора слов для категории". Категория в типичном обучении с учителем будет состоять из нескольких документов, и каждый из них независимо представлен в виде набора слов.

В частности, это делает недействительным ваше окончательное предложение запрашивать у Google слова, относящиеся к категории — это не то, как работают типичные методы ML. Вы получаете множество документов, представляете их в виде набора слов (или чего-то еще), а затем выполняете статистический анализ (строите модель), чтобы найти лучший набор правил для различения категорий. Эти правила обычно не будут просто «если слово X присутствует, это связано с Y».

person lejlot    schedule 27.05.2017
comment
Не могли бы вы привести несколько примеров того, что вы подразумеваете под статистическим анализом (построением модели)? Ссылки тоже было бы здорово. - person ; 27.05.2017
comment
Я имею в виду, например, обучить наивный байесовский классификатор или машину опорных векторов или построить любое другое приближение P (категория | образцы) - person lejlot; 27.05.2017
comment
О, я вижу. Просто для уточнения. Подойдет ли это для решения проблемы категоризации веб-страниц? Соберите корпус/веб-страницы и пометьте их предопределенными категориями (например, «Математика» или «Спорт») — › Разделите корпус между тестовым и обучающим наборами — › Используя обучающий набор, создайте набор слов для определенной категории — › Затем выполните тест? - person ; 27.05.2017
comment
Вы не создаете набор слов для категории. Вы ПРЕДСТАВЛЯЕТЕ текстовый документ как набор слов, а затем выполняете задачу классификации этих документов, присваивая метки и обучая модель. - person shirowww; 27.05.2017
comment
как сказал @shirowww и как указано в ответе, набор слов - это способ представления документов, а не категории. Как только эти документы будут представлены в виде лука, их можно использовать для изучения сопоставления с категорией. - person lejlot; 27.05.2017
comment
Ладно, думаю, я понял. Еще один вопрос, который приходит на ум. Можете ли вы создать корпус ‹b›corpus‹/b› для определенной категории? Я не уверен, но я думаю, что корпус будет набором веб-страниц, и я бы вручную присвоил им категорию, основываясь на том, что я думаю? - person ; 28.05.2017
comment
обычно строят корпус по проблеме, а не по категории, но да - это просто набор документов. Как вы назначаете категории, зависит от вас. Иногда вы можете назначить его идеальным способом (поскольку вы знаете, откуда берется документ), иногда его можно автоматизировать (например, на основе иерархии в википедии, если ваш корпус основан на вики-страницах), а иногда вы в конечном итоге делаете что-то вручную (что занимает много времени) - person lejlot; 28.05.2017