Что такое матрица путаницы в машинном обучении?
В машинном обучении мы используем алгоритм классификации для прогнозирования/классификации дискретных значений. Классификация используется для разделения данных на категории. Но после очистки и предварительной обработки данных и обучения модели. Как мы можем проверить, хорошо ли работает наша модель классификации? Вот где на сцену выходит матрица путаницы.
Матрица путаницы:
Матрица путаницы — это сводка результатов прогнозирования модели классификации. Это матрица N x N, где N — количество целевых классов. Это таблица с фактическими значениями в столбцах и прогнозируемыми значениями в строках.
Здесь мы можем увидеть таблицу матрицы путаницы
- True Positive: количество раз, когда наши фактические положительные значения равны прогнозируемым положительным. Вы предсказали положительное значение, и это правильно.
- Ложное срабатывание: количество раз, когда наша модель ошибочно предсказывает отрицательные значения как положительные. Вы предсказали отрицательное значение, а на самом деле оно положительное.
- True Negative: количество раз, когда наши фактические отрицательные значения равны предсказанным отрицательным значениям. Вы предсказали отрицательное значение, и оно на самом деле отрицательное.
- False Negative: количество раз, когда наша модель ошибочно предсказывает отрицательные значения как положительные. Вы предсказали отрицательное значение, а на самом деле оно положительное.
Метрики матрицы путаницы:
- Точность: Точность используется для нахождения части правильно классифицированных значений. Он говорит нам, как часто наш классификатор оказывается прав. Это сумма всех истинных значений, деленная на общие значения.
- Точность: точность используется для расчета способности модели правильно классифицировать положительные значения. Это истинные положительные значения, деленные на общее количество предсказанных положительных значений.
- Напомним: он используется для расчета способности модели предсказывать положительные значения. «Как часто модель предсказывает правильные положительные значения?». Это истинные положительные значения, деленные на общее количество фактических положительных значений.
- F1-Score: это гармоническое среднее отзыва и точности. Это полезно, когда вам нужно учитывать как точность, так и отзыв.
Некоторые другие показатели в матрице путаницы:
Что такое кибербезопасность?
Кибербезопасность — это практика защиты систем, сетей и программ от цифровых атак. Эти кибератаки обычно направлены на доступ, изменение или уничтожение конфиденциальной информации; вымогательство денег у пользователей; или прерывая нормальные бизнес-процессы.
Что такое кибератака?
В компьютерах и компьютерных сетях атака — это любая попытка раскрыть, изменить, вывести из строя, уничтожить, украсть или получить информацию посредством несанкционированного доступа или несанкционированного использования актива.
Типы кибератак/киберпреступлений:
1. Вредоносное ПО
Вредоносное ПО — это вредоносное программное обеспечение, такое как программы-шпионы, программы-вымогатели, вирусы и черви. Вредоносное ПО активируется, когда пользователь нажимает на вредоносную ссылку или вложение, что приводит к установке опасного программного обеспечения. Cisco сообщает, что вредоносное ПО после активации может:
- Блокировать доступ к ключевым компонентам сети (программы-вымогатели)
- Установите дополнительное вредоносное ПО
- Скрытно получать информацию путем передачи данных с жесткого диска (шпионское ПО)
- Нарушать отдельные части, делая систему неработоспособной
2. Эмотет
Emotet представляет собой «продвинутый модульный банковский троянец, который в основном функционирует как загрузчик или дроппер других банковских троянов. Emotet продолжает оставаться одним из самых дорогостоящих и разрушительных вредоносных программ».
3. Отказ в обслуживании
Отказ в обслуживании (DoS) — это тип кибератаки, при которой компьютер или сеть переполняется, поэтому он не может отвечать на запросы. Распределенный DoS (DDoS) делает то же самое, но атака исходит из компьютерной сети. Кибер-злоумышленники часто используют флуд-атаку, чтобы нарушить процесс «рукопожатия» и выполнить DoS. Можно использовать несколько других методов, и некоторые кибер-злоумышленники используют время, когда сеть отключена, для запуска других атак. По словам Джеффа Мелника из Netwrix, компании-разработчика программного обеспечения для обеспечения безопасности информационных технологий, ботнет — это тип DDoS, при котором миллионы систем могут быть заражены вредоносным ПО и контролироваться хакером. Ботнеты, иногда называемые зомби-системами, атакуют и подавляют вычислительные возможности цели. Ботнеты находятся в разных географических точках, и их трудно отследить.
4. Человек посередине
Атака «человек посередине» (MITM) происходит, когда хакеры внедряются в двухстороннюю транзакцию. По словам Cisco, после прерывания трафика они могут фильтровать и красть данные. Атаки MITM часто происходят, когда посетитель использует незащищенную общедоступную сеть Wi-Fi. Злоумышленники встраиваются между посетителем и сетью, а затем используют вредоносное ПО для установки программного обеспечения и злонамеренного использования данных.
5. Фишинг
Фишинговые атаки используют поддельные сообщения, такие как электронное письмо, чтобы обманным путем заставить получателя открыть его и выполнить содержащиеся в нем инструкции, такие как предоставление номера кредитной карты. «Цель — украсть конфиденциальные данные, такие как данные кредитной карты и данные для входа, или установить вредоносное ПО на компьютер жертвы», — сообщает Cisco.
6. SQL-инъекция
Внедрение языка структурированных запросов (SQL) — это тип кибератаки, которая возникает в результате внедрения вредоносного кода в сервер, использующий SQL. При заражении сервер выдает информацию. Отправить вредоносный код можно так же просто, как ввести его в окно поиска уязвимого веб-сайта.
7. Парольные атаки
С правильным паролем кибер-злоумышленник получает доступ к огромному количеству информации. Социальная инженерия — это тип атаки на пароль, который Data Insider определяет как «стратегию, используемую кибер-злоумышленниками, которая в значительной степени зависит от человеческого взаимодействия и часто включает в себя обман людей, чтобы они нарушили стандартные методы безопасности». Другие типы атак на пароли включают доступ к базе данных паролей или прямое угадывание.
8.XSS
Это еще один тип атаки путем внедрения, при котором злоумышленник внедряет данные, например вредоносный скрипт, в контент с веб-сайтов, которым доверяют. Атаки с использованием межсайтовых сценариев (XSS) могут происходить, когда ненадежному источнику разрешено внедрять свой собственный код в веб-приложение, и этот вредоносный код включается в динамический контент, доставляемый в браузер жертвы. Это позволяет злоумышленнику выполнять вредоносные сценарии, написанные на различных языках, таких как JavaScript, Java, Ajax, Flash и HTML, в браузере другого пользователя.
Один из вариантов использования матрицы путаницы для обнаружения вредоносных программ:
Истинные положительные (tp), ложноположительные (fp), истинно отрицательные (tb) и ложноотрицательные значения (fn) используются для расчета следующих показателей производительности:
- True Positive Rate/Reall/Sensitivity (tpr): доля образцов вредоносных программ, правильно идентифицированных как программы-вымогатели.
- Уровень ложных срабатываний (fpr = 1 — tnr): доля образцов полезного ПО, ошибочно идентифицированных как вредоносное ПО.
- Доля истинно отрицательных результатов/специфичность (tnr): доля образцов полезного ПО, правильно идентифицированных как полезное ПО.
- False Negative Rate (fnr = 1 — tpr): доля образцов программ-вымогателей, ошибочно классифицированных как полезные программы.
- О точности сообщается как доля всех правильно идентифицированных образцов. Точнее, Точность = tpr+tnr/ tpr+tnr+fpr+fnr.
- Точность рассчитывается как точность = tp/ tp+fp . и
7. Индекс Юденса рассчитывается как Y = tpr + tnr − 1.
Здесь мы увидели отраслевой пример использования матрицы путаницы для обнаружения вредоносных программ.
Вывод:
До сих пор мы знали о ключевых терминах киберпреступлений и о том, как модели машинного обучения используются для обнаружения вредоносных программ. мы подведем итоги на небольшом примере и укажем, насколько важна матрица путаницы в созданной нами модели машинного обучения.
Например: На всех наших компьютерах у нас есть система защитника Windows для защиты нашего компьютера от любых кибератак. Если бы у нас было программное обеспечение, очень похожее на него, построенное на модели регрессионного машинного обучения, то теперь оно регулярно сканирует наш компьютер и выглядит так. работает нормально с точностью 80%, но все же у нас была эта модель в матрице путаницы, где у нас есть ложноотрицательные значения, которые предсказывают отрицательное значение, но на самом деле оно положительное, может быть по крайней мере некоторое количество предсказанного значения. так что это большая проблема, потому что в нашей системе остался какой-то вирус в виде ложноотрицательного значения, которое защитник не показывает и не удаляет. мы можем обнажить ложноположительные, но не ложноотрицательные. Поэтому в этом случае матрица путаницы создает некоторый хаос. Это показывает критическую природу ошибок типа 1 и типа 2 в матрице путаницы, которая будет варьироваться от варианта использования к варианту использования, где мы хотим найти компромисс между двумя типами ошибок.
Спасибо за чтение!!!
Ресурсы :
Ребята, посмотрите этот ресурс, вы получите больше информации о том, как ML внедряется в кибербезопасность.
https://builtin.com/artificial-intelligence/machine-learning-cybersecurity