Конспект лекций FAU по распознаванию образов

Как оценить гауссианы и их смеси

Введение в алгоритм максимизации ожидания

Это конспекты лекции FAU на YouTube Распознавание образов. Это полная стенограмма видео лекции и соответствующие слайды. Исходники слайдов доступны здесь. Надеемся, вам понравится это не меньше, чем видео. Эта стенограмма была почти полностью сгенерирована машиной с использованием AutoBlog, и в нее были внесены лишь незначительные изменения вручную. Если вы заметили ошибки, сообщите нам об этом!

Навигация

Предыдущая глава / Посмотреть это видео / Следующая глава / Верхний уровень

С возвращением всех к распознаванию образов. Сегодня мы хотим изучить метод вероятностной оценки, который позволяет нам оценивать скрытую информацию, так называемый алгоритм максимизации ожидания.

Итак, давайте посмотрим на наши слайды, чтобы обсудить сегодня алгоритм максимизации ожидания, и мы хотим использовать его для оценки параметров. Таким образом, целью является создание метода оценки параметров, который сможет работать с пространствами параметров большой размерности, скрытыми и скрытыми переменными, а также с неполными данными. До сих пор мы видели следующие методы. Мы видели оценку максимального правдоподобия, которая по существу предполагает, что все наблюдения статистически независимы друг от друга. Наблюдения остаются фиксированными, а затем функция логарифмического правдоподобия оптимизируется по параметрам. Другой метод, который мы рассмотрели, - это максимальная апостериорная оценка, и здесь мы, по сути, предполагаем, что существует функция плотности вероятности наших параметров. Чтобы сделать это, конечно, мы должны знать, как выглядит эта функция, чтобы определить ее параметры.

В общем, теперь мы можем сформулировать это как X как наблюдаемую случайную величину и некоторый набор параметров θ. Таким образом, оценки θ обозначаются θ̂ at, и тогда x может быть событием, которое присваивается случайной величине капитала X. Это дает нам оценку максимального правдоподобия, где у нас есть максимум по нашей функции правдоподобия, которая затем определяет оптимальные параметры θ̂. Обычно мы можем записать это как совместную функцию вероятности. Теперь другая - максимальная апостериорная оценка, и здесь мы определяем наш параметр θ̂ как максимизацию вероятности θ при некотором x, и затем это можно переписать с помощью правила Байеса и маргинализации, так что мы в конечном итоге закончим как максимизацию логарифм предшествующего θ плюс логарифм x данного θ. Теперь у нас, по сути, есть генеративная модель, в которой мы знаем распределение x при заданном θ, и нас интересует только определение оптимальных параметров. Итак, θ рассматривается как случайная величина, и ее функция плотности вероятности известна.

Давайте рассмотрим пример с использованием оценки максимального правдоподобия. Итак, здесь мы предполагаем гауссовское распределение, и вы помните, что гауссово и нормальное распределение, конечно же, очень актуальны и для экзамена. Итак, вы видите, что у нас есть эта классическая формулировка, которая появлялась в различных случаях в нашем классе, а затем мы наблюдаем случайные векторы от x1 до xm, которые формируют наши обучающие данные. Итак, на основе этих обучающих данных мы теперь должны оценить средний вектор μ и ковариационную матрицу Σ. Как мы можем это сделать?

Что ж, мы используем идею оценки максимального правдоподобия и предполагаем, что наши выборки взаимно независимы, что, по сути, позволяет нам описать все как большой продукт. Затем этот большой продукт максимизируется относительно μ и Σ. По сути, мы можем использовать функцию логарифма правдоподобия, и если мы это сделаем, то мы можем даже вычислить логарифм, наш продукт превращается в сумму. Затем это позволяет нам, по сути, также записать это в целом как максимизацию функции логарифмического правдоподобия, где мы затем получаем наблюдения в качестве входных данных, и мы стремимся максимизировать их по отношению к нашим μ и Σ. И вот наше определение функции логарифмического правдоподобия, которая представляет собой просто сумму соответствующих логарифмированных вероятностей.

Если вы это сделаете, то вам необходимо вычислить частную производную, чтобы вычислить точку оптимальности, и необходимые условия для этих параметров, конечно, заключаются в том, что частная производная по μ равна нулю, а частная производная по Σ равна нуль. Таким образом, мы действительно можем сделать это, применить определение нашего гауссовского языка, и тогда мы увидим, что предыдущий термин, по сути, может быть удален, потому что он не имеет отношения к оптимизации по отношению к μ здесь. Тогда мы, по сути, просто остаемся с экспонентой, и мы можем установить ее равной нулю. Затем мы также можем увидеть, решим ли мы вышеуказанное уравнение, тогда мы, по сути, получим сумму по всем наблюдениям, разделенную на количество наблюдений как средний вектор.

Теперь мы можем оценить ковариационную матрицу и проделать тот же трюк. Мы вычисляем частную производную по логарифмической функции правдоподобия, а затем определяем ее нулевые пересечения. Мы можем видеть, что тогда ковариационная матрица может быть оценена как единичная по m, где m - количество обучающих выборок, а затем у нас есть два вектора по существу, и на самом деле это вдвое больше того же вектора: xi минус μ̂ умножить на xi минус μ̂ транспонировать. Таким образом, это оба вектора-столбца, поэтому у нас, по сути, есть матрицы первой степени, а затем сумма по всем матрицам первой степени в наших обучающих выборках, которая дает нам оценку полной ковариационной матрицы.

Теперь давайте сделаем шаг вперед и рассмотрим так называемые модели гауссовой смеси. Потому что с нынешними гауссианами, которые у нас были до сих пор, у нас есть довольно много ограничений. Таким образом, у нас был по существу один компонент распределения, зависящий от класса. У нас могли быть одномерные или многомерные функции, и тип был в основном гауссовским. Итак, у нас были нормально распределенные функции. Теперь мы хотим расширить это, а не просто рассмотреть одно гауссовское распределение, но мы хотим иметь возможность моделировать нашу функцию плотности вероятности как набор многомерных гауссовских распределений с капиталом K. Это приводит к модели гауссовой смеси. Таким образом, модель гауссовской смеси способна описывать любые суперпозиции различных гауссианов. Это довольно гибко, потому что мы можем аппроксимировать произвольные функции плотности вероятности, используя суперпозицию гауссианов. Итак, мы, по сути, теперь идем по пути, по которому мы хотим описать сложные функции плотности вероятности с помощью аппроксимативной техники, в которой мы используем гауссианы в качестве основы.

Давайте рассмотрим один пример. Итак, у нас есть распределение, и это человеческий рост. Это для граждан Германии в 2006 году, и мы показываем здесь относительную частоту, и вы видите, что по существу мы имеем распределение от где-то ниже 150 сантиметров до более 190 сантиметров. Теперь, если вы внимательно посмотрите на это распределение, это мужской плюс женский, а теперь давайте посмотрим на компоненты.

Здесь у нас есть распределение для женщин и распределение для мужчин. По сути, вы можете видеть, что весь дистрибутив состоит из частей. Фактически в этом случае мы наблюдаем суперпозицию двух гауссианов.

У нас также могло бы быть больше гауссианов, и вы могли бы даже описать гораздо более сложные функции плотности вероятности, подобные той, которую я показываю здесь, и которая на самом деле является суперпозицией трех гауссианов. Итак, у нас есть три гауссовских компонента с разными приоритетами. Таким образом, не все компоненты должны быть одинаково вероятными, и это позволяет нам смешивать различные гауссианы для аппроксимации действительно сложных функций плотности вероятности. Теперь у нас есть проблема, что нам не нужно оценивать только среднее значение и матрицу ковариаций, но количество параметров увеличивается.

Итак, как правило, мы дали несколько m векторов признаков в d-мерном пространстве, и теперь идея состоит в том, что мы хотим найти многомерные гауссовские распределения с капиталом K, которые лучше всего представляют эти наблюдения. Теперь GMM являются примером классификации, и мы тренируемся, используя обучение без учителя. Это означает, что неизвестно, какие векторы признаков порождаются какими из K гауссианов. Желаемый результат - это для каждого вектора признаков оценка вероятности того, что он генерируется распределением k, где k - индекс гауссианов с большой буквы.

Это приводит нас к следующему количеству параметров. Таким образом, у нас обычно есть для каждого из компонентов k среднее значение и ковариационная матрица. Среднее значение имеет размерность d, ковариационная матрица имеет размерность d умноженную на d. Затем у нас также есть доля, которая назначается соответствующему компоненту, которая описывает, сколько из наблюдаемых обучающих выборок фактически связано с этим компонентом. Кроме того, мы можем также определить вероятность, которая является pik или вероятностью компонента k, учитывая наблюдение i, что вероятность соответствующего вектора признаков связана с этим соответствующим компонентом. Таким образом, для каждого вектора признаков мы наблюдаем, что заглавная буква K умножена на эту вероятность. Кроме того, у нас также есть дополнительные оценки, которые представляют собой вероятность вектора признаков x, которые затем можно описать как распределение вероятностей наблюдения этого конкретного вектора признаков. Затем также общая функция логарифмического правдоподобия оцененного набора параметров.

Теперь давайте рассмотрим нашу идею, используя функцию общего логарифмического правдоподобия. Итак, теперь мы знаем, что нашу вероятность x можно по существу описать как сумму гауссианцев с большой буквы. По сути, это означает, что мы должны ввести сумму как вероятность x. Теперь мы также хотим ввести индивидуальные вероятности для k вкладов, и тогда это будет наш pik, который мы можем записать как pktimes гауссовский коэффициент соответствующего компонента, деленный на вероятность наблюдения x.

Итак, как получить μk, Σk и pk. Подобно оценке максимального правдоподобия для гауссиана, мы можем максимизировать логарифмическое правдоподобие, выводя его относительно неизвестных. Итак, мы можем это сделать, и это даст следующую оценку. Таким образом, мы получаем μ̂ для компонента k как сумму pik, умноженную на соответствующий вектор признаков, деленную на общую сумму pik. Кроме того, мы можем аналогичным образом определить нашу оценку ковариационной матрицы для k, а также априорность этого компонента. Итак, вы видите, что теперь мы можем описать оценку, но нам необходимо, чтобы эта вероятность наблюдения i была связана с компонентом k. Как правило, это то, что мы можем наблюдать, только если уже знаем параметры. Итак, как мы можем направить этот процесс оценки?

Теперь идея состоит в том, что, если мы знаем значения параметров, мы сможем вычислить ожидания. Когда у нас есть ожидания, мы можем вычислить улучшенные значения для параметров на этом так называемом шаге максимизации M-шаге. Итак, есть шаг E и шаг M. Итак, как мы это сделаем? Что ж, это приводит к итерационной схеме решения для нелинейной оценки параметров GMM и запомните, что прямо в решении максимального правдоподобия выполняются как E-шаг, так и M-шаг. Это означает, что параметры ML являются стационарной точкой для шагов E и M. Затем, начиная с любых значений параметров и итерации шага E в сочетании с оценкой шага M, увеличивают функцию логарифмического правдоподобия. Затем это приводит к алгоритму оценки, и здесь у нас есть набросок алгоритма EM для оценки параметров GMM.

Итак, вы инициализируете некоторыми μk, некоторыми Σk и некоторыми pk. Затем вы устанавливаете счетчик итераций на ноль. Вы запускаете этап ожидания, что означает, что вы вычисляете новые значения для pik и L, и после того, как вы их вычислили, вы можете запустить этап максимизации, который затем обновляет значения из μk, Σk и pk. Теперь у нас есть эти три значения, и они улучшены, поэтому мы можем увеличить счетчик итераций и начать повторение до тех пор, пока наша функция логарифмического правдоподобия не перестанет меняться. На данный момент у нас есть оптимальное условие, и мы выводим оценки μ̂k, Σ̂k и p̂khat.

Таким образом, это был вывод для оценки GMM, очевидно, что алгоритм максимизации ожидания выходит далеко за рамки этого, и его можно применять во многих других случаях. Вот почему мы рассмотрим принцип отсутствия информации в следующей лекции, а затем рассмотрим общую схему решения проблем типа EM. Так что большое спасибо за прослушивание, и я надеюсь, вам понравилось это небольшое видео, с нетерпением жду встречи с вами в следующем. Пока-пока.

Если вам понравился этот пост, вы можете найти больше эссе здесь, больше образовательных материалов по машинному обучению здесь или взглянуть на нашу Лекцию Глубокое обучение. Я также был бы признателен за подписку на YouTube, Twitter, Facebook или LinkedIn, если вы хотите получать информацию о новых эссе, видео и исследованиях в будущем. Эта статья выпущена под лицензией Creative Commons 4.0 Attribution License и может быть перепечатана и изменена при наличии ссылки. Если вас интересует создание стенограмм видеолекций, попробуйте Автоблог.

использованная литература

  1. Легкое для понимания руководство по оценке машинного обучения: In Jae Myung: ☞ Учебное пособие по оценке максимального правдоподобия, Journal of Mathematical Psychology, 47 (1): 90–100, 2003
  2. Классика для введения в алгоритм EM: AP Dempster, NM Laird, DB Rubin: ☞ Оценка максимального правдоподобия на основе неполных данных с помощью алгоритма EM, Журнал Королевского статистического общества, серия B, 39 (1): 1–38 .
  3. У. Х. Пресс, С. А. Теукольский, В. Т. Веттерлинг, Б. П. Фланнери: ☞ Численные рецепты, 3-е издание, Cambridge University Press, 2007.