ОПТИМИЗАЦИЯ И МАШИНОСТРОЕНИЕ

Что делать, если ваша модель имеет ненормальное распределение ошибок

Как использовать деформацию для соответствия произвольному распределению ошибок

Одна из самых важных вещей, которую может сказать нам модель, - это ее уверенность в прогнозе. Ответ на этот вопрос может прийти в виде распределения ошибок. Распределение ошибок - это распределение вероятностей для точечного прогноза, сообщающее нам, насколько вероятна каждая дельта ошибки.

Распределение ошибок может быть не менее важным, чем точечное предсказание.

Предположим, вы инвестор, рассматривающий две разные возможности (A и B) и использующий модель для прогнозирования годовой доходности (в процентах от инвестированной суммы). Модель предсказывает, что A и B будут иметь одинаковую ожидаемую годовую доходность в 10%, но показывает эти распределения ошибок.

Несмотря на то, что обе возможности имеют одинаковую ожидаемую доходность, распределение ошибок показывает, насколько они различны. B сильно распределен относительно своей ожидаемой стоимости с небольшим риском потери денег; тогда как A больше похож на лотерею. Небольшая вероятность получения высокой выплаты (доходность ~ 500%); но в большинстве случаев мы теряем все (доходность ~ -100%).

Точечный прогноз ничего не говорит нам о том, где вероятнее всего будут распределены целевые значения. Если важно знать, насколько далеко может быть предсказание, или если целевые значения могут быть сгруппированы по жирным хвостам, тогда становится важным точное распределение ошибок.

Самый простой способ ошибиться в распределении ошибок - это попытаться придать ему форму, которой она не принимает. Это часто случается, когда мы достигаем удобного, но часто неправильно применяемого нормального распределения.

Нормальное распределение популярно не зря. Центральная предельная теорема не только упрощает математику, но и говорит нам, что нормальное распределение может быть естественным выбором для многих задач.

Каким образом может возникнуть нормальное распределение?

Пусть X обозначает матрицу признаков, а b обозначает вектор регрессоров. Предположим, целевые значения генерируются уравнением

куда

Центральная предельная теорема гласит, что если E являются независимо одинаково распределенными случайными величинами с конечной дисперсией, то сумма будет приближаться к нормальному распределению по мере увеличения m .

Даже если E явно ненормально, e будет близок к нормальному, если суммирование содержит достаточно членов.

Давайте посмотрим на конкретный пример. Установите b = (-2, 3). Пусть записи X генерируются независимо от равномерного распределения [-1, 1]. Мы сгенерируем E ’ из этого явно ненормального распределения.

Мы нормализуем распределение ошибок для e, чтобы иметь отклонение в единицах, и позволяем количеству терминов m варьироваться. Вот гистограммы ошибок (оранжевым цветом) из моделей наименьших квадратов, взятые из прогонов моделирования для различных значений m и наложенные на ожидаемую гистограмму ошибок, если они были нормально распределены (синим цветом) ¹.

При больших значениях m гистограмма ошибок становится все ближе к гистограмме нормального распределения.

Когда есть основания полагать, что члены ошибок разбиваются на суммы независимых одинаково распределенных факторов, подобных этому, нормальное распределение является хорошим выбором. Но в общем случае у нас нет оснований предполагать это. И действительно, многие распределения ошибок не являются нормальными, демонстрируя перекосы и жирные хвосты.

Что делать, если распределение ошибок ненормально?

Здесь нам помогает деформация². Он использует нормальное распределение в качестве строительного блока, но дает нам ручки для локальной настройки распределения, чтобы лучше соответствовать ошибкам из данных.

Чтобы увидеть, как работает деформация, обратите внимание, что если f (y) - это монотонно возрастающая сюръективная функция, а p (z) - функция плотности вероятности, то p (f (y)) f ′ (y) формирует новую функцию плотности вероятности.

потому что f ′ (y) ≥ 0; и после применения подстановки u = f (y) , Мы видим, что

Давайте посмотрим на пример, чтобы увидеть, как f может изменить распределение. Предположим, p (z) - стандартное нормальное распределение N (0, 1), а f (y) определяется как

где c ›0; и между [0, 1], f - это сплайн, плавно переходящий между y и cy. Вот как выглядит f для нескольких разных значений c.

и вот как выглядят полученные искаженные распределения вероятностей³

Когда c = 2, площадь перераспределяется из стандартного нормального распределения, так что функция плотности вероятности (PDF) достигает пика, а затем быстро спадает, чтобы получить более тонкий правый хвост. Когда c = 0,5, происходит обратное: PDF быстро падает, а затем замедляется скорость уменьшения, чтобы получить более толстый правый хвост.

Теперь представьте, что f параметризован вектором ψ, который позволяет нам делать произвольные локальные корректировки скорости увеличения. (Подробнее о параметризации f позже). Тогда с подходящим ψ, f может соответствовать широкому диапазону различных дистрибутивов. Если мы сможем найти способ правильно настроить ψ, это даст нам мощный инструмент для подгонки распределений ошибок.

Как настроить параметры деформации?

Лучшее соответствие распределения ошибок повышает вероятность ошибок в обучающих данных. Отсюда следует, что мы можем найти параметры деформации, максимизируя вероятность обучающих данных.

Во-первых, давайте посмотрим, как работает максимальное увеличение вероятности без искажений.

Пусть θ обозначает вектор параметров для данной регрессионной модели. Пусть g (x; θ) представляет прогноз модели для вектора признаков x. Если мы используем нормальное распределение со стандартным отклонением σ для моделирования распределения ошибок прогнозов, то вероятность обучающих данных равна

и логарифм правдоподобия

Положил

(RSS означает остаточная сумма квадратов)

При фиксированном θ σ максимизирует вероятность, когда

В более общем плане, если σ² = cRSS (c ›0), то логарифмическая вероятность упрощается до

И мы видим, что вероятность увеличивается, когда θ минимизирует RSS.

Теперь предположим, что мы деформируем целевое пространство с помощью монотонной функции f, параметризованной ψ. Пусть f (y; ψ) обозначает искривленное целевое значение. Тогда вероятность искаженного распределения ошибок равна

и логарифмическая вероятность становится

Или с

и σ² = cRSS

Чтобы соответствовать распределению ошибок, мы воспользуемся оптимизатором, чтобы найти параметры (θ, ψ), которые увеличивают эту вероятность.

Для работы оптимизатора требуется локальное приближение к цели, которое он может использовать для итеративного улучшения параметров. Чтобы построить такое приближение, нам нужно будет вычислить градиент логарифма правдоподобия по отношению к вектору параметров.

Положил

Мы можем использовать L в качестве прокси для логарифмической вероятности, поскольку она отличается только константой.

Искажение - это общий процесс, который можно применить к любой базовой регрессионной модели, но мы сосредоточимся на простейшей базовой модели - линейной регрессии.

Как исказить модель линейной регрессии?

С помощью линейной регрессии мы можем получить замкнутую форму для θ. Пусть Q и R - матрицы QR-факторизации матрицы признаков X

где Q ортогонально, а R - прямоугольный треугольник. Положил

и пусть обозначает вектор, который минимизирует RSS для искаженных целей z

Положил

потом

Если X имеет m линейно независимых столбцов, то первые m строк прямоугольной треугольной матрицы R имеют ненулевые элементы на диагонали, а остальные строки равны 0. Отсюда следует, что

для i ≤m и

для я ›м. Следовательно,

Пусть P - диагональная матрица размера n x n с

Установленный

потом

Подставляя эти уравнения в прокси логарифмического правдоподобия, мы получаем

И дифференциация по параметру деформации дает нам

Используя эти производные, оптимизатор может перейти к параметрам деформации ψ, которые увеличивают вероятность обучающих данных.

Как делать прогнозы с помощью искаженной модели линейной регрессии?

Теперь, когда мы нашли параметры деформации, нам нужно сделать прогнозы.

Рассмотрим, как это работает в стандартной обычной модели наименьших квадратов без деформации. Предположим, данные генерируются из модели

где ε находится в N (0, σ²). Пусть X и y обозначают данные обучения. Регрессоры, которые минимизируют RSS обучающих данных, являются

Если x ′ и y обозначают вектор признаков и целевое значение вне выборки

тогда ошибка прогноза вне выборки

Поскольку ε и ε ′ нормально распределены, отсюда следует, что e ′ нормально распределены, а дисперсия

Мы редко знаем дисперсию шума σ², но мы можем использовать это уравнение для получения несмещенной оценки для него.

где p - количество регрессоров.

Предположим, что теперь обычная модель наименьших квадратов соответствует искривленным целевым значениям.

Обычный метод наименьших квадратов дает нам точечный прогноз и распределение ошибок для скрытого пространства, но нам нужно инвертировать деформацию, чтобы получить прогноз для целевого пространства.

Пусть представляет скрытое предсказание для вектора признаков вне выборки x ′. Если - это оценочная дисперсия скрытого шума, то вероятность целевого значения y равна

и ожидаемое целевое значение

После выполнения подстановки u = f (y) ожидаемое значение можно переписать как

Обратное к f может быть вычислено с помощью метода Ньютона, чтобы найти корень f (y) - u,, а интеграл может быть эффективно оценивается с помощью квадратуры Гаусса-Эрмита.

Какие эффективные функции для деформации?

Давайте обратим наше внимание на функцию деформации f (y; ψ) и то, как ее параметризовать. Мы хотели бы, чтобы параметризация позволяла использовать широкий спектр различных функций, но мы также должны убедиться, что она разрешает только монотонно возрастающие функции сюръективного искажения.

Обратите внимание, что функция деформации инвариантна при изменении масштаба: c f (y; ψ) приводит к тем же результатам, что и f (y; ψ). Установите θ ′ так, чтобы g (x; θ ) = c g (x; θ). Тогда прокси логарифмического правдоподобия L (ψ, θ ′) для c f (y; ψ) равно

Важно то, как функция деформации изменяет относительный интервал между целевыми значениями.

Одно эффективное семейство функций для деформации:

Каждый шаг tanh позволяет локализовать изменение наклона функции деформации. Термин t гарантирует, что функция деформации монотонно сюръективна и возвращается к идентичности, когда t далеко от любого шага. А из-за неизменности масштабирования нет необходимости добавлять коэффициент масштабирования к t.

Мы сделаем еще одну корректировку, чтобы функция деформации обнуляла среднее значение. Положил

Пример проблемы

Набор данных о сообществах и преступности⁵ предоставляет статистику преступности для различных населенных пунктов США. Как задача регрессии, задача состоит в том, чтобы предсказать уровень насильственных преступлений по различным социально-экономическим показателям. Мы подгоним модель деформированной линейной регрессии к набору данных и сравним ее эффективность с обычной моделью наименьших квадратов.

Давайте посмотрим на подгонку функции деформации, чтобы максимизировать логарифмическую вероятность обучающих данных.

Пусть σ обозначает оценочное стандартное отклонение шума в скрытом пространстве. Чтобы наглядно представить, как эта функция изменяет распределение ошибок, мы построим диапазон

по целевым значениям

Искажение уменьшает диапазон ошибок прогноза при более низких целевых значениях⁶.

Чтобы увидеть, приводит ли деформация к лучшим результатам, давайте сравним производительность деформированной модели линейной регрессии (WLR) с обычной моделью наименьших квадратов (OLS) при десятикратной перекрестной проверке набора данных сообществ. Мы используем среднее значение логарифма правдоподобия (MLL) в качестве измерения ошибки. MLL усредняет логарифмическую вероятность каждого вневыборочного прогноза при перекрестной проверке⁷.

Результаты показывают, что деформированная линейная регрессия работает значительно лучше. Детализация нескольких случайно выбранных прогнозов и их распределений ошибок помогает объяснить, почему.

Диапазон значений естественным образом ограничен нулем, а деформация изменяет форму функции плотности вероятности, чтобы сузиться, чтобы получить больше вероятностной массы для допустимых целевых значений.

Резюме

Может возникнуть соблазн использовать нормальное распределение для моделирования ошибок. Это упрощает математику, а центральная предельная теорема говорит нам, что нормальность возникает естественным образом, когда ошибки разбиваются на суммы по независимо одинаково распределенным случайным величинам.

Но многие проблемы регрессии не укладываются в такую ​​схему, и распределение ошибок может быть далеким от нормального.

Когда вы сталкиваетесь с нестандартным распределением ошибок, одним из вариантов является преобразование целевого пространства. С помощью правильной функции f можно добиться нормальности, если мы заменим исходные целевые значения y на f (y). Специфика проблемы иногда может привести к естественному выбору f. В других случаях мы могли бы подойти к проблеме с набором фиксированных преобразований и надеяться, что один из них разблокирует нормальность. Но это может быть спонтанный процесс.

Искажение превращает этап трансформации в проблему максимального правдоподобия. Вместо применения фиксированных преобразований деформация использует параметризованные функции, которые могут аппроксимировать произвольные преобразования и подгоняют функции к задаче с помощью оптимизатора.

С помощью функции преобразования деформация может улавливать аспекты ненормальности в распределении ошибок, такие как перекос и толстые хвосты. Для многих проблем это приводит к повышению производительности прогнозирования вне выборки и позволяет избежать специальной работы с фиксированными преобразованиями.

Заинтересованы в создании деформированных моделей? Ознакомьтесь с пакетом Python peak-motors.

Сноски

[1]: См. Https://github.com/rnburn/warped-regression-doc/blob/master/notebooks/normal_errors.ipynb для получения подробной информации о полной симуляции.

[2]: представление деформации и конкретные используемые функции деформации взяты из

Э. Снельсон, CE Расмуссен, З. Гахрамани. Искаженные гауссовские процессы. Достижения в области нейронных систем обработки информации 16, 337–344

[3]: функции и графики деформации доступны в https://github.com/rnburn/warped-regression-doc/blob/master/notebooks/warp.ipynb

[4]: См. Https://github.com/rnburn/warped-regression-doc/blob/master/notebooks/ols_prediction_error.ipynb для проверки уравнения.

[5]: Доступно как часть Репозитория машинного обучения UCI. Смотрите также

Министерство торговли США, Бюро переписи, переписи населения и жилищного фонда 1990 г. США: Сводная запись на магнитной ленте 1a и 3a (компьютерные файлы),

Министерство торговли США, Бюро переписи населения, Вашингтон, округ Колумбия, и Межуниверситетский консорциум политических и социальных исследований, Анн-Арбор, Мичиган. (1992)

Министерство юстиции США, Бюро статистики юстиции, Управление правоохранительной деятельности и административная статистика (компьютерный файл) Министерство торговли США, Бюро переписи населения, Вашингтон, округ Колумбия, и Межуниверситетский консорциум политических и социальных исследований, Анн-Арбор, Мичиган. (1992)

Министерство юстиции США, Федеральное бюро расследований, Преступность в Соединенных Штатах (компьютерный файл) (1995)

Редмонд, М. А. и А. Бавея: Управляемый данными программный инструмент для обеспечения совместного обмена информацией между полицейскими управлениями. Европейский журнал операционных исследований 141 (2002) 660–678.

[6]: см. Https://github.com/rnburn/warped-regression-doc/blob/master/notebooks/communities_example.ipynb

[7]: см. Https://github.com/rnburn/warped-regression-doc/blob/master/notebooks/communities_example_cv.ipynb