Математика повсюду вокруг нас, во всем, что мы делаем. Это строительный блок для всего в нашей повседневной жизни, включая мобильные устройства, архитектуру (древнюю и современную), искусство, деньги, инженерное дело и даже спорт. Машинное обучение также не является исключением. Алгоритмы машинного обучения строят математическую модель на основе выборочных данных, чтобы делать прогнозы или принимать решения без явного программирования для выполнения задачи.

По сути, есть четыре раздела математики, которые широко используются в машинном обучении, которые мы обсудим в этой статье:

  1. Линейная алгебра
  2. Исчисление
  3. Статистика
  4. Вероятность

Линейная алгебра:

Линейная алгебра работает как сердце алгоритмов машинного обучения. Концепции линейной алгебры обеспечивают базовую структуру данных, используемую в машинном обучении. Векторы и матрицы — это две фундаментальные структуры данных, используемые для хранения и представления данных. Простота выполнения операций с этими структурами данных является причиной их популярности.

Пример:-

Изображения и фотографии.Изображения хранятся в компьютере с помощью трех матриц: красной, зеленой и синей. Каждая матрица имеет размерность, равную разрешению изображения. Они содержат информацию о каждом пикселе, то есть сколько красного, зеленого или синего должно быть в каждом пикселе.

Одно горячее кодирование. Категориальные данные хранятся в векторной форме с однократным кодированием, т. е. присваивают каждой категории значение и представляют его, где бы ни находились данные.

Исчисление:

Концепции исчисления используются в машинном обучении для оптимизации алгоритмов. Поскольку 100% точность модели достичь невозможно, нам нужен метод, позволяющий максимально оптимизировать наш результат. Некоторые виды использования исчисления в машинном обучении:

  • Вычисления градиента.Вычисления градиента обычно используются в алгоритмах численной оптимизации, и для их вычисления легко используется исчисление, особенно в случае нейронных сетей, где мы используем цепное правило для получения алгоритма обратного распространения ошибки.
  • Числовая оптимизация. Используется для обучения моделей с учетом набора данных, которые будут использоваться для выполнения любых действий, от вывода до генерации данных и последовательного принятия решений.

Статистика:

Статистика — это раздел математики, в котором мы собираем и анализируем большой объем данных. Концепции статистики широко используются на всех этапах машинного обучения, от сбора данных до структурирования алгоритмов. При сборе данных и формировании выборочной совокупности используются различные методы моделирования статистики. Статистические концепции также используются при анализе типа данных, будь то линейные, непрерывные, дискретные и т. Д. В основном существуют две ветви статистики:

(1) Описательная. Также известная как сводная статистика, мы анализируем определенный блок данных, например среднее значение, стандартное отклонение и т. д. Например, выполняем анализ сотрудников компании.

(2) Инференциальный: все время работать со всей совокупностью невозможно, поэтому мы делаем выборку из всей совокупности и выполняем анализ и вывод, что это верно для всего класса совокупности. Выборка должна быть случайной (т. е. кандидаты должны быть выбраны случайным образом без какой-либо предвзятости) и репрезентативной (т. е. должен быть охвачен каждый класс населения). Например анализ на жителей Индии.

Вероятность:

Вероятность — это основа машинного обучения. Машинное обучение — это разработка прогностических моделей на основе неопределенных данных. Неопределенность означает работу с несовершенной или неполной информацией. С этой неопределенностью можно справиться, используя инструменты вероятности. Некоторые примеры концепций вероятности, используемых в машинном обучении:

  • Модели классификации должны предсказывать вероятность принадлежности к классу
  • Алгоритмы разрабатываются с использованием вероятности (например, наивный байесовский метод).
  • Алгоритмы обучения будут принимать решения, используя вероятность (например, получение информации)
  • Подобласти исследования основаны на вероятности (например, байесовские сети).

Важность типов данных в машинном обучении

В машинном обучении мы имеем дело с различными категориями данных, от строковых до числовых и плавающих. Нам необходимо заранее определить тип данных для применения алгоритма для производительности и оптимизации алгоритма. Типы данных, с которыми мы будем иметь дело в машинном обучении:

(1) Числовые данные (количественные данные):

Количественные данные представляют собой меры значений или количества и выражаются в виде чисел. Количественные данные — это данные о числовых переменных (например, сколько, сколько или как часто). Некоторые реальные примеры количественных данных: цена смартфона, заработная плата сотрудников, богатство человека и т. д.

Существует два типа количественных данных:

  • Непрерывные данные.Непрерывные данные могут достигать любого значения на графике. Он может быть числовым или плавающим. Пример непрерывных данных: Цена смартфона, вес человека.
  • Дискретные данные. В дискретных данных может принимать определенное значение. Он может быть только числовым или плавающим за раз. Пример: количество приложений, установленных на смартфоне (не может быть десятичным числом), возраст человека.

(2) Категориальные данные (качественные данные):

Качественные данные являются мерами «типов» и могут быть представлены именем, символом или числовым кодом. Качественные данные — это данные о категориальных переменных (например, какого типа). Пример: красота девушки, марка смартфона и т. д.

Существует два типа категориальных данных:

  • Номинальные данные. Если между категориями нет определенного порядка, они называются номинальными данными. Пример: в гендерных данных и мужчины, и женщины имеют одинаковую ценность.
  • Порядковые данные. Когда между данными существует определенный порядок, это называется порядковыми данными. Пример: Плохо, Хорошо, Средне для мобильного аккумулятора.

Следовательно, из приведенной выше статьи мы можем сделать вывод, что сущность математики присутствует повсюду в науке о данных и машинном обучении, от сбора данных до моделирования алгоритмов.