\theta
— это обычная/стандартная нотация машинного обучения, указывающая (строго говоря) набор параметров (значений), часто более известный как вектор параметров.
Обозначение P(Y|X;\theta)
следует читать, поскольку значения y (например, метки цифр MNIST) предсказываются на основе значений x (например, входных изображений цифр MNIST) с помощью обученной модели, которая обучается на аннотированных (X, Y) парах. . Эта модель параметрируется \theta
. Очевидно, что если изменится алгоритм обучения, изменится и вектор параметров \theta
.
Структура этих векторов параметров обычно интерпретируется на основе модели, с которой они связаны, например. для многослойных нейронных сетей они указывают действительные векторы, первоначально назначенные случайным образом, а затем обновленные градиентным спуском на каждой итерации.
Для языковых моделей, основанных на генерации слов, они относятся к вероятности того, что слово v
следует за словом u
, что означает, что каждый элемент является записью в хэш-таблице формы (u, v) --> count(u.v)/count(u)
. Эти вероятности извлекаются из обучающей коллекции, C
документов, в результате чего они по существу становятся функцией обучающей выборки. Для другой коллекции эти значения вероятности будут другими.
Следовательно, обычно принято писать P(w_n|P_w_{n-1};\theta)
, что в основном указывает на то, что эти вероятности последовательности слов параметризуются значением \theta
.
Аналогичный аргумент применим к языковым моделям уровня документа при поиске информации, где веса в основном указывают вероятности выборки терминов из документов.
person
Debasis
schedule
10.05.2020