Логарифмическая функция в алгоритмах ML

В последние 2 года я начал читать статьи, описывающие алгоритмы машинного обучения. Когда дело доходит до уравнения целевой функции, я смотрел на логарифмическую функцию и задавался вопросом, почему она должна быть логарифмической, а не чем-то другим, или просто наивным определением расстояния внутри логарифма.

Когда я взял в руки книгу Стивена Скиены «Руководство по проектированию данных», я внезапно осознал приведенные ниже причины и очень ценю интуицию, отраженную в книге при разработке алгоритмов.

вычисление журнала происходит быстро, реализуется путем сдвига битов.
для численной стабильности, чтобы преобразовать умножение в сложение

Значение вероятности находится между 0 и 1. Для многих событий, например. редкие, стоимость крошечная. Умножения, например. из-за условной вероятности делает результат близким к нулю, что может привести к проблеме численной стабильности и потере точности. После взятия логарифма операция умножения становится сложением, которое численно более стабильно.

3. больше подходит для работы с соотношениями и их иллюстрации.

Необработанные данные после нормализации становятся соотношениями.

(1) больше подходит для сочетания коэффициентов.

Добавление коэффициентов не имеет смысла, например. результат первого увеличения в 2 раза, а затем уменьшения до 1/2 должен использовать умножение. А из-за 2 следует избегать умножения. Таким образом, добавление после взятия журнала более подходит

(2) сохраняйте равные интервалы на иллюстрации

Соотношения сосредоточены вокруг 1, например. [0, 1] и [1,+∞], что не является симметричным по интервалам. Это иногда делает иллюстрацию сжатой по разным масштабам, что может визуально ввести в заблуждение, т.е. расстояния (а) между 1/2 и 1 (б) между 1 и 2 различны. Но рост для этих двух случаев симметричен.

Еще одна проблема с прямой иллюстрацией соотношений заключается в том, что при работе с нормализованными значениями правильное соотношение обычно меньше 1. Значение больше 1 является аномалией или не имеет смысла.

4 преобразовать асимметричное распределение в симметричную колоколообразную форму

Файл: Диаграммы отрицательного и положительного перекоса (английский).svg
Английский: Диаграммы, иллюстрирующие отрицательный и положительный перекос. (Создано с помощью Inkscape, программного обеспечения с открытым исходным кодом, и основано на…en.wikipedia.org

Симметричная колоколообразная форма является желательным распределением, по крайней мере, по двум причинам: (а) тяжелая в центре, может быть легко упрощена (б) низкая дисперсия, неширокое распространение, поэтому выбросы легче идентифицировать.

Учитывая асимметричное распределение (обычно соответствующее степенному закону распределения, экспоненциально возрастающее, а затем экспоненциально убывающее), логарифмическая функция может преобразовать его в форму симметричного колокола с низкой дисперсией.

Насколько я понимаю этот эффект, функция журнала может резко уменьшить разницу. В этом случае он подавляет обе стороны пика и делает их примерно равными.

Это заставляет меня вспомнить анекдот, который я обычно рассказываю, чтобы утешить своих друзей, когда они борются за разницу в 10 тысяч в компенсации, которая никак не была получена — эти двое выглядят почти одинаково после логарифмической функции чисел. Боритесь изо всех сил, смиритесь с исходом и идите дальше.

Логарифмическая функция в алгоритмах ML

Похожие вопросы