Что означает «тета» в языковой модели?

Я знаю, что если X обозначает текст, то p(X) обозначает языковую модель текста. И чаще всего мы используем оценку максимального правдоподобия для оценки языковой модели. Но во многих случаях я обнаруживаю, что параметр $\theta$ используется для представления языковой модели. Я не понимаю смысла этого $\theta$ . Например, для документа d в ​​коллекции, какой цели служит $\theta$ в 'p(d|$\theta$)'?

Представляет ли $\theta$ оценку максимального правдоподобия или языковую модель?

Может ли кто-нибудь подробно объяснить эту разницу между языковой моделью и $\theta$?

Заранее спасибо !


person Bharathi    schedule 09.05.2020    source источник


Ответы (1)


\theta — это обычная/стандартная нотация машинного обучения, указывающая (строго говоря) набор параметров (значений), часто более известный как вектор параметров.

Обозначение P(Y|X;\theta) следует читать, поскольку значения y (например, метки цифр MNIST) предсказываются на основе значений x (например, входных изображений цифр MNIST) с помощью обученной модели, которая обучается на аннотированных (X, Y) парах. . Эта модель параметрируется \theta. Очевидно, что если изменится алгоритм обучения, изменится и вектор параметров \theta.

Структура этих векторов параметров обычно интерпретируется на основе модели, с которой они связаны, например. для многослойных нейронных сетей они указывают действительные векторы, первоначально назначенные случайным образом, а затем обновленные градиентным спуском на каждой итерации.

Для языковых моделей, основанных на генерации слов, они относятся к вероятности того, что слово v следует за словом u, что означает, что каждый элемент является записью в хэш-таблице формы (u, v) --> count(u.v)/count(u). Эти вероятности извлекаются из обучающей коллекции, C документов, в результате чего они по существу становятся функцией обучающей выборки. Для другой коллекции эти значения вероятности будут другими.

Следовательно, обычно принято писать P(w_n|P_w_{n-1};\theta), что в основном указывает на то, что эти вероятности последовательности слов параметризуются значением \theta.

Аналогичный аргумент применим к языковым моделям уровня документа при поиске информации, где веса в основном указывают вероятности выборки терминов из документов.

person Debasis    schedule 10.05.2020