Исследовательский анализ данных о взаимосвязи между различными видами преступлений в Лондоне

Недавно я создал карту, на которой обозначены места 14 различных видов преступлений, зафиксированных полицией Лондона. Это заставило меня задуматься о том, могут ли быть определенные виды преступлений, которые с большей вероятностью совершаются вместе (то есть, если между преступлениями существует связь).

Мое первоначальное предположение состоит в том, что, поскольку мы имеем дело с преступностью, и если в какой-либо местности уровень преступности выше, то, как правило, уровень преступности выше для всех типов, и наоборот. Однако я хотел бы глубже изучить взаимосвязь между различными видами преступлений и местом их совершения.

Из-за большого количества данных немного сложнее просто использовать интерактивный сюжет, который я создал, чтобы визуально увидеть, имеют ли место какие-то преступления вместе.

Резюме данных

Данные, использованные в этом анализе, такие же, как те, которые я использовал в своих предыдущих сообщениях, только на этот раз я заменил переменные широты и долготы для области, в которой произошли преступления, определенной названием LSOA (нижний уровень супер выходной области). Это потому, что меня интересует не точное место каждого преступления, а место, где были совершены различные преступления. Не вдаваясь в подробности, LSOA - это измерение переписи для небольших территорий, основанное на численности населения от 1000 до 3000 и домашних хозяйств от 400 до 1200. Более подробную информацию об этом можно найти на Веб-сайте Национального архива и на сайте Сайт Лондонского хранилища данных .

Всего было определено 5149 областей LSOA, определенных набором данных, в которых в 2016 году было совершено хотя бы одно из 14 различных видов преступлений.

Метод

Во-первых, мне нужно было провести исследовательский анализ с использованием базовой описательной статистики и визуализаций, чтобы обеспечить обобщение и понимание данных, а также выявить какие-либо закономерности и характеристики. Чтобы сделать наблюдение относительно того, какие преступления могут происходить вместе, я предполагаю использовать кластеризацию k-средних, чтобы сгруппировать эти конкретные преступления вместе. Прежде чем я смогу выполнить кластеризацию, мне нужно будет уменьшить размеры данных с 14 переменных (типов преступлений) до количества, которое можно будет легче интерпретировать и визуализировать, при этом учитывая все типы преступлений. Для этого я решил использовать анализ главных компонентов.

Код, использованный для этого анализа, можно найти на Github.

Часть 1: Исследовательский анализ данных

Если начать с краткого обзора данных, становится очевидным, что каждый вид преступлений имеет очень широкий диапазон частот. Первый квартиль пяти из 14 преступлений равен 0, а максимальное значение для всех видов преступлений значительно выше, чем соответствующий третий квартиль. Это можно увидеть, создав коробчатую диаграмму для 14 различных видов преступлений (рис. 1). Также очевидно, что для каждого преступления существует большое количество выбросов. В результате этот коробчатый график не очень полезен для визуализации распределения каждого преступления, поэтому для этой цели я создал еще один (рис. 2) без выбросов.

Большое количество выбросов и нулевые значения для каждого преступления трудно понять, глядя на рисунок 1, поэтому я вычислил значение верхнего внутреннего ограждения для каждого преступления, а затем определил, в скольких областях зарегистрировано количество случаев, которые упали выше соответствующего верхнего предела. значение внутреннего ограждения для каждого вида преступлений (т.е. верхние выбросы). Это можно увидеть в Таблице 1 вместе с столбцом, в котором указано количество районов, в которых зафиксировано нулевое количество случаев для каждого типа преступлений.

Теперь это дает представление о некоторых характеристиках данных и различиях в распределении между 14 типами преступлений. Мы также получаем больше информации о том, насколько вариативность объясняется каждым преступлением. Я вычислил дисперсию для каждого преступления, и наибольшая дисперсия «антисоциального поведения» составила 3437,2, а наименьшая была приписана «владению оружием» со значением всего 4,3. Создание гистограммы для этих двух переменных позволяет более детально интерпретировать их распределение.

Видно, что в случае «владения оружием» более 4000 из 5149 территорий испытали один или ноль случаев. Это также подтверждается в приведенной выше таблице, где мы можем сказать, что большинство этих значений фактически равны нулю, поскольку «владение оружием» имеет 3022 области, в которых не было зафиксировано ни одного случая.

«Антисоциальное поведение» имеет гораздо более широкий разброс по количеству случаев, зарегистрированных в каждой области. Из приведенной выше таблицы видно, что «антисоциальное поведение» имело 279 областей с нулевой заболеваемостью, что меньше числа верхних выбросов (345).

Часть 2: Взаимосвязь видов преступлений

Следующим шагом, получившим возможность более детального понимания данных и определенных характеристик в них, является изучение взаимосвязи между различными типами преступлений.

Можно начать с построения корреляционной матрицы для 14 видов преступлений. Несмотря на то, что корреляционная матрица определяет некоторые виды преступлений, имеющие более высокую корреляцию, чем другие, трудно понять эти взаимосвязи по всем 14 преступлениям. Построение диаграмм разброса по всем 14 видам преступлений также будет трудно интерпретировать.

Не вдаваясь в подробности, можно, таким образом, использовать анализ главных компонентов (PCA) для уменьшения размеров данных до меньшего количества компонентов, которые сохранят как можно больше вариативности, выраженной исходными данными. Меньшее количество компонентов поможет описать взаимосвязь между исходными переменными, спроецировав их на двумерную сетку, позволяющую упростить визуализацию, на основе которой можно сгруппировать похожие типы преступлений.

Результаты PCA содержат 14 компонентов (равных количеству переменных), и важность компонентов может быть определена по доле дисперсии, которую имеет каждый компонент. В этом анализе на первые два компонента приходится 60% и 7% дисперсии соответственно. Первый компонент значительно выше, чем остальные компоненты, и 80% общей дисперсии приходится на первые 4 компонента. Это можно визуализировать с помощью линейного графика кумулятивной доли дисперсии для каждого компонента (рисунок 5).

Этот график может помочь в определении количества компонентов, которые необходимо оставить для анализа. Ясно, что первый компонент является наиболее важным компонентом, и очень мало изменений в величине дисперсии, объясняемой последующими компонентами, и в результате для этого анализа необходимо сохранить только первые два компонента.

Наконец, чтобы определить взаимосвязь между различными типами преступлений, для визуальной интерпретации можно использовать два графика (рис. 6) с использованием первых двух основных компонентов. На двумерном графике отображаются векторы, представляющие каждую переменную, которые указывают от начала координат к значениям, присвоенным каждой переменной первыми двумя основными компонентами. Он также включает значения, присвоенные двум компонентам для каждой из областей (5149) в наборе данных, однако в центре внимания этого анализа находится взаимосвязь между векторами переменных (типами преступлений).

Два фактора, которые следует учитывать при интерпретации этого графика, - это длина векторов и угол между ними. Более длинный вектор означает, что переменная хорошо представлена на графике, и наоборот. Размер угла между векторами определяет корреляцию переменных, которая является желаемым показателем для достижения цели этого анализа. Маленький угол указывает на сильную положительную корреляцию, 90 градусов означает отсутствие корреляции, а 180 градусов - отрицательную корреляцию.

Трудно интерпретировать сюжет из-за скопления людей, однако ясно, что «другое преступление» кажется немного необычным при сравнении его отношения с другими видами преступлений. Диаграмма разброса значений первых двух компонентов, присвоенных 14 типам преступлений, может быть построена для того, чтобы лучше визуализировать взаимосвязь между другими типами преступлений из двух диаграмм. Не отображая двух очень похожих графиков, один для графика рассеяния, а затем другой только с добавлением результатов кластеризации K-средних, я только что включил последний (рисунок 7).

Взаимосвязь между различными видами преступлений становится все более очевидной благодаря этому сюжету. Помимо «других преступлений», которые уже были определены как выбросы и повторены здесь, есть еще два кластера (1 и 3), в которые сгруппированы переменные. Внутри кластеров 1 и 3 можно выделить определенные типы преступлений, которые имеют более сильную взаимосвязь, чем другие. Например, в кластере 1 «преступный ущерб и поджоги», «антиобщественное поведение», «наркотики», «общественный порядок» и «насилие и сексуальные преступления» рассматриваются как тесно связанные. В кластере 3 «кража велосипеда», «кража со взломом», «разбой» и «кража у человека» тесно связаны.

Не вдаваясь в подробности анализа конкретных областей, в которых происходят эти преступления, поскольку я нарушу рамки этого анализа, поэтому я оставлю это для другого сообщения, я составил таблицу, чтобы увидеть, в какой области произошли эти преступления. наибольшее количество инцидентов по каждому преступлению. Это можно увидеть в Таблице 2, где есть список областей с количеством случаев, с которыми они столкнулись для каждого преступления, с выделенными ячейками, представляющими самые высокие показатели, зарегистрированные для этого конкретного типа преступлений.

Интересное наблюдение из этого состоит в том, что было два района (Вестминстер 018A и Вестминстер 013E), в каждой из которых был зарегистрирован самый высокий уровень преступности 4 разных типов:

Вестминстер 018A - «антиобщественное поведение», «преступный ущерб и поджоги», «общественный порядок» и «насилие и сексуальные преступления».

Westminster 013E - «кража со взломом», «другая кража», «кража в магазине» и «кража у человека».

Эти преступления очень похожи на две четко различимые группы типов преступлений, которые определены как связанные друг с другом в рамках кластеров, созданных на предыдущем сюжете.

Вывод

Цель, изложенная в начале этого поста, заключалась в том, чтобы глубже изучить различные типы преступлений, зарегистрированных в Лондоне за 2016 год, и определить, существуют ли какие-либо связи между определенными видами преступлений.

Это было проанализировано с помощью некоторых методов исследовательского анализа данных для определения характеристик данных, а затем с помощью анализа основных компонентов для уменьшения размеров данных, чтобы взаимосвязи между определенными типами преступлений можно было визуализировать с помощью кластеризации K-средних.

Этот анализ был проведен в результате некоторого любопытства, которое я почерпнул из своих предыдущих постов, в которых я обозначил географическое положение различных преступлений. Следующий шаг, о котором я уже начал думать, - это изучить профили преступности в различных областях и определить, могут ли определенные области подвергаться аналогичным преступлениям и где они соотносятся друг с другом.