Что такое матрица путаницы в машинном обучении?

В машинном обучении мы используем алгоритм классификации для прогнозирования/классификации дискретных значений. Классификация используется для разделения данных на категории. Но после очистки и предварительной обработки данных и обучения модели. Как мы можем проверить, хорошо ли работает наша модель классификации? Вот где на сцену выходит матрица путаницы.

Матрица путаницы:

Матрица путаницы — это сводка результатов прогнозирования модели классификации. Это матрица N x N, где N — количество целевых классов. Это таблица с фактическими значениями в столбцах и прогнозируемыми значениями в строках.

Здесь мы можем увидеть таблицу матрицы путаницы

  • True Positive: количество раз, когда наши фактические положительные значения равны прогнозируемым положительным. Вы предсказали положительное значение, и это правильно.
  • Ложное срабатывание: количество раз, когда наша модель ошибочно предсказывает отрицательные значения как положительные. Вы предсказали отрицательное значение, а на самом деле оно положительное.
  • True Negative: количество раз, когда наши фактические отрицательные значения равны предсказанным отрицательным значениям. Вы предсказали отрицательное значение, и оно на самом деле отрицательное.
  • False Negative: количество раз, когда наша модель ошибочно предсказывает отрицательные значения как положительные. Вы предсказали отрицательное значение, а на самом деле оно положительное.

Метрики матрицы путаницы:

  • Точность: Точность используется для нахождения части правильно классифицированных значений. Он говорит нам, как часто наш классификатор оказывается прав. Это сумма всех истинных значений, деленная на общие значения.

  • Точность: точность используется для расчета способности модели правильно классифицировать положительные значения. Это истинные положительные значения, деленные на общее количество предсказанных положительных значений.

  • Напомним: он используется для расчета способности модели предсказывать положительные значения. «Как часто модель предсказывает правильные положительные значения?». Это истинные положительные значения, деленные на общее количество фактических положительных значений.

  • F1-Score: это гармоническое среднее отзыва и точности. Это полезно, когда вам нужно учитывать как точность, так и отзыв.

Некоторые другие показатели в матрице путаницы:

Что такое кибербезопасность?

Кибербезопасность — это практика защиты систем, сетей и программ от цифровых атак. Эти кибератаки обычно направлены на доступ, изменение или уничтожение конфиденциальной информации; вымогательство денег у пользователей; или прерывая нормальные бизнес-процессы.

Что такое кибератака?

В компьютерах и компьютерных сетях атака — это любая попытка раскрыть, изменить, вывести из строя, уничтожить, украсть или получить информацию посредством несанкционированного доступа или несанкционированного использования актива.

Типы кибератак/киберпреступлений:

1. Вредоносное ПО

Вредоносное ПО — это вредоносное программное обеспечение, такое как программы-шпионы, программы-вымогатели, вирусы и черви. Вредоносное ПО активируется, когда пользователь нажимает на вредоносную ссылку или вложение, что приводит к установке опасного программного обеспечения. Cisco сообщает, что вредоносное ПО после активации может:

  • Блокировать доступ к ключевым компонентам сети (программы-вымогатели)
  • Установите дополнительное вредоносное ПО
  • Скрытно получать информацию путем передачи данных с жесткого диска (шпионское ПО)
  • Нарушать отдельные части, делая систему неработоспособной

2. Эмотет

Emotet представляет собой «продвинутый модульный банковский троянец, который в основном функционирует как загрузчик или дроппер других банковских троянов. Emotet продолжает оставаться одним из самых дорогостоящих и разрушительных вредоносных программ».

3. Отказ в обслуживании

Отказ в обслуживании (DoS) — это тип кибератаки, при которой компьютер или сеть переполняется, поэтому он не может отвечать на запросы. Распределенный DoS (DDoS) делает то же самое, но атака исходит из компьютерной сети. Кибер-злоумышленники часто используют флуд-атаку, чтобы нарушить процесс «рукопожатия» и выполнить DoS. Можно использовать несколько других методов, и некоторые кибер-злоумышленники используют время, когда сеть отключена, для запуска других атак. По словам Джеффа Мелника из Netwrix, компании-разработчика программного обеспечения для обеспечения безопасности информационных технологий, ботнет — это тип DDoS, при котором миллионы систем могут быть заражены вредоносным ПО и контролироваться хакером. Ботнеты, иногда называемые зомби-системами, атакуют и подавляют вычислительные возможности цели. Ботнеты находятся в разных географических точках, и их трудно отследить.

4. Человек посередине

Атака «человек посередине» (MITM) происходит, когда хакеры внедряются в двухстороннюю транзакцию. По словам Cisco, после прерывания трафика они могут фильтровать и красть данные. Атаки MITM часто происходят, когда посетитель использует незащищенную общедоступную сеть Wi-Fi. Злоумышленники встраиваются между посетителем и сетью, а затем используют вредоносное ПО для установки программного обеспечения и злонамеренного использования данных.

5. Фишинг

Фишинговые атаки используют поддельные сообщения, такие как электронное письмо, чтобы обманным путем заставить получателя открыть его и выполнить содержащиеся в нем инструкции, такие как предоставление номера кредитной карты. «Цель — украсть конфиденциальные данные, такие как данные кредитной карты и данные для входа, или установить вредоносное ПО на компьютер жертвы», — сообщает Cisco.

6. SQL-инъекция

Внедрение языка структурированных запросов (SQL) — это тип кибератаки, которая возникает в результате внедрения вредоносного кода в сервер, использующий SQL. При заражении сервер выдает информацию. Отправить вредоносный код можно так же просто, как ввести его в окно поиска уязвимого веб-сайта.

7. Парольные атаки

С правильным паролем кибер-злоумышленник получает доступ к огромному количеству информации. Социальная инженерия — это тип атаки на пароль, который Data Insider определяет как «стратегию, используемую кибер-злоумышленниками, которая в значительной степени зависит от человеческого взаимодействия и часто включает в себя обман людей, чтобы они нарушили стандартные методы безопасности». Другие типы атак на пароли включают доступ к базе данных паролей или прямое угадывание.

8.XSS

Это еще один тип атаки путем внедрения, при котором злоумышленник внедряет данные, например вредоносный скрипт, в контент с веб-сайтов, которым доверяют. Атаки с использованием межсайтовых сценариев (XSS) могут происходить, когда ненадежному источнику разрешено внедрять свой собственный код в веб-приложение, и этот вредоносный код включается в динамический контент, доставляемый в браузер жертвы. Это позволяет злоумышленнику выполнять вредоносные сценарии, написанные на различных языках, таких как JavaScript, Java, Ajax, Flash и HTML, в браузере другого пользователя.

Один из вариантов использования матрицы путаницы для обнаружения вредоносных программ:

Истинные положительные (tp), ложноположительные (fp), истинно отрицательные (tb) и ложноотрицательные значения (fn) используются для расчета следующих показателей производительности:

  1. True Positive Rate/Reall/Sensitivity (tpr): доля образцов вредоносных программ, правильно идентифицированных как программы-вымогатели.
  2. Уровень ложных срабатываний (fpr = 1 — tnr): доля образцов полезного ПО, ошибочно идентифицированных как вредоносное ПО.
  3. Доля истинно отрицательных результатов/специфичность (tnr): доля образцов полезного ПО, правильно идентифицированных как полезное ПО.
  4. False Negative Rate (fnr = 1 — tpr): доля образцов программ-вымогателей, ошибочно классифицированных как полезные программы.
  5. О точности сообщается как доля всех правильно идентифицированных образцов. Точнее, Точность = tpr+tnr/ tpr+tnr+fpr+fnr.
  6. Точность рассчитывается как точность = tp/ tp+fp . и

7. Индекс Юденса рассчитывается как Y = tpr + tnr − 1.

Здесь мы увидели отраслевой пример использования матрицы путаницы для обнаружения вредоносных программ.

Вывод:

До сих пор мы знали о ключевых терминах киберпреступлений и о том, как модели машинного обучения используются для обнаружения вредоносных программ. мы подведем итоги на небольшом примере и укажем, насколько важна матрица путаницы в созданной нами модели машинного обучения.

Например: На всех наших компьютерах у нас есть система защитника Windows для защиты нашего компьютера от любых кибератак. Если бы у нас было программное обеспечение, очень похожее на него, построенное на модели регрессионного машинного обучения, то теперь оно регулярно сканирует наш компьютер и выглядит так. работает нормально с точностью 80%, но все же у нас была эта модель в матрице путаницы, где у нас есть ложноотрицательные значения, которые предсказывают отрицательное значение, но на самом деле оно положительное, может быть по крайней мере некоторое количество предсказанного значения. так что это большая проблема, потому что в нашей системе остался какой-то вирус в виде ложноотрицательного значения, которое защитник не показывает и не удаляет. мы можем обнажить ложноположительные, но не ложноотрицательные. Поэтому в этом случае матрица путаницы создает некоторый хаос. Это показывает критическую природу ошибок типа 1 и типа 2 в матрице путаницы, которая будет варьироваться от варианта использования к варианту использования, где мы хотим найти компромисс между двумя типами ошибок.

Спасибо за чтение!!!

Ресурсы :

Ребята, посмотрите этот ресурс, вы получите больше информации о том, как ML внедряется в кибербезопасность.

https://builtin.com/artificial-intelligence/machine-learning-cybersecurity