Введение

В Докладе о глобальном питании за 2018 год недоедание определяется как:

«недостаток правильного питания, вызванный нехваткой пищи, недостаточным употреблением пищи, содержащей вещества, необходимые для роста и здоровья, а также другими прямыми и косвенными причинами».»

Заняв тревожное 102-е место из 117 стран в Глобальном индексе голода 2019 года, Индия страдает от уровня голода, который определяется как серьезный. Несмотря на достаточное производство продуктов питания, Индия страдает от «скрытого голода» из-за недостаточности удовлетворения потребностей своего населения в питательных веществах. Таким образом, предварительное выявление угрозы безопасности питания необходимо для разработки правительством политики в области продовольственной безопасности. Чтобы решить эту проблему, мы будем применять методы машинного обучения, чтобы прогнозировать уязвимость индийских районов к недоеданию среди новорожденных. Вес при рождении менее 2,5 кг традиционно считается «низким» в большинстве стран. Низкий вес при рождении (НМТ) не только связан с повышенным риском детской смертности, но также влияет на рост и развитие в подростковом возрасте и провоцирует такие заболевания взрослых, как ишемическая болезнь сердца и диабет. [​1​] Таким образом, процент LBW, преобладающий в районе, является важным показателем недоедания среди новорожденных детей.

Основная цель состоит в том, чтобы классифицировать уязвимость района в отношении LBW на «низкий» и «высокий» уровни на основе социально-экономических параметров и параметров здоровья путем создания нашего собственного ансамблевого классификатора ML. Следовательно, визуализируйте результаты, создавая визуальные тепловые карты уровней уязвимости всех районов в штате.

Методология

Мы использовали как контролируемое, так и неконтролируемое обучение. Методы кластеризации использовались для определения оптимальных кластеров в данных, а методы классификации, наконец, использовались для классификации по меткам. Регрессия (линейная и логистическая) также использовалась в классификации. Помимо этого, алгоритмы обнаружения выбросов использовались для обнаружения и удаления выбросов. Кроме того, перед разработкой модели был выполнен предварительный исследовательский анализ данных (EDA) по набору данных.

Для обучения нашей модели мы использовали данные Ежегодного обследования состояния здоровья (AHS) Индии за 2012–2013 годы. Опрос проводился в штатах Уполномоченной группы действий (EAG) Уттаракханд, Раджастхан, Уттар-Прадеш, Бихар, Джаркханд, Одиша, Чхаттисгарх и Мадхья-Прадеш и Ассам. Эти девять штатов являются штатами с повышенным вниманием ввиду их относительно более высокой рождаемости и смертности. Это репрезентативная выборка из примерно 21 миллиона населения и 4,32 миллиона домохозяйств, которая охватывает более 20 тыс. единиц выборки, разбросанных по сельским и городским районам этих девяти штатов.

Количество переменных: 41

Зависимая переменная:Процент детей с массой тела при рождении менее 2,5 кг

Независимые переменные:

Методы:

Фактор локального выброса. Это алгоритм обнаружения выбросов на основе плотности. Этот алгоритм оценивает уникальность каждой точки данных на основе расстояния от k ближайших соседей. Этот метод основан на локальной плотности и сравнивает локальную плотность точки данных с плотностью ближайшего соседа. [​2​] Точка данных считается выбросом, если ее плотность намного ниже, чем у ее соседа. Фактор локального выброса (LOF) точки данных p определяется как [​2​]:

где локальная плотность достижимости (lrd) объекта p определяется выражением [​2​]:

Методы кластеризации. Кластеризация была выполнена на неконтролируемых немаркированных данных, чтобы найти оптимальные кластеры, формирующиеся естественным образом в данных. Для этой цели были выполнены K-средние и иерархическая кластеризация. Коэффициент силуэта и график зависимости J от k (метод локтя) использовались для определения оптимальных кластеров k. По результатам кластеризации были созданы два уровня Низкий (меньше медианы) и Высокий (выше медианы).

Алгоритмы классификации:

  1. Линейная регрессия
  2. Логистическая регрессия
  3. K- Ближайший сосед (KNN)
  4. Древо решений
  5. Случайный лес
  6. Адаптивное повышение

Методы снижения размерности. Мы также использовали линейный дискриминантный анализ (LDA) метод уменьшения размерности для выполнения классификации. Сначала из независимых переменных были разделены тестовая и обучающая выборки в соотношении 1:2. Затем эти обучающая и тестовая выборки были масштабированы на основе статистических параметров обучающей выборки. Затем размерность переменных была уменьшена с помощью LDA, и был выбран первый компонент LDA 1 для выполнения классификации с использованием KNN и классификаторов случайного леса.

Обучение ансамблем.
Оценив результаты всех методов классификации, использованных выше, мы выбрали три лучших классификатора на основе оценки метрик, чтобы разработать собственный метод ансамбля. Классификатор ансамбля принимает прогнозы от трех лучших классификаторов в качестве входных данных и выбирает лучший прогноз на основе критериев голосования большинства. Он был разработан для достижения максимальной точности путем объединения всех трех классификаторов.

Оценка модели:

Оценка F1 = (2 * точность * чувствительность) / (точность + чувствительность)

Результаты

Кластеризация:

Таким образом, неотъемлемое количество кластеров в данном наборе данных равно 2. Таким образом, мы заключаем, что нужно сформировать 2 уровня — низкий и высокий, чтобы классифицировать наши точки данных; на основе медианного значения нашей зависимой переменной, т.е. -0,172165 (стандартизированное значение).

На основе точности наиболее эффективными классификаторами являются линейная регрессия, KNN, случайный лес и классификация на основе LDA. Линейная регрессия достигла точности 72,9%, KNN — 80%, а случайный лес — 71,7%. Однако важным наблюдением является то, что, хотя классификация на основе LDA дала хорошую точность, оценки F1 очень низкие. Это связано с низкой точностью и чувствительностью из-за большего количества ложноположительных и ложноотрицательных результатов. Следовательно, мы выбираем три лучших классификатора: линейную регрессию, KNN и случайный лес для построения нашего ансамблевого классификатора, отбрасывая классификаторы на основе LDA. В окончательной модели ансамбля мы сначала возьмем прогнозы этих трех классификаторов, а затем назначим окончательный класс на основе голосования большинства.

Точность: 77,6%
Точность: 76,1%
Чувствительность: 78%
Специфичность:​ 77,2%
Оценка F1: 0,771

Сводка и визуализация результатов.
Прогнозы, сделанные с помощью окончательной ансамблевой модели на тестовых данных, представлены на следующих географических тепловых картах.

Тепловые карты наших прогнозов дают проницательную визуализацию уязвимости к недоеданию среди новорожденных детей в разных штатах. Мы видим, что большинство районов Мадхья-Прадеша, Джаркханда и Раджастхана попадают в «высокий» уровень угрозы. Это наблюдение, сделанное на основе нашего прогноза, аналогично результатам, полученным в данных Национального обследования здоровья семьи (NFHS-3) за 2005–2006 годы, опубликованных Министерством здравоохранения и благосостояния семьи правительства Индии. В отчете NFHS-3 о питании говорится, что доля детей в возрасте до пяти лет с недостаточным весом колеблется от 40% в Уттар-Прадеше до 60% в Мадхья-Прадеше. Кроме того, более половины детей младшего возраста в Джаркханде имеют недостаточный вес, согласно
NFHS-3 [​3​]. Эти тенденции были четко обозначены предсказаниями нашей окончательной модели. Еще одно наблюдение, которое можно заметить, заключается в том, что районы Западного УП более уязвимы по сравнению с Восточным УП. Это соответствует тому, что существует неравенство параметров человеческого развития западного и восточного ЮП.[​4​]

Заключение

Таким образом, для любого района с выбранными выше социально-экономическими параметрами и параметрами здоровья окончательная модель может предсказать его уязвимость к недоеданию среди новорожденных (низкий или высокий) с точностью 77,6%. Благодаря визуализации данных с использованием географических тепловых карт мы также смогли сделать существенные выводы, которые совпадают с данными наблюдений, собранными в ходе других надежных опросов. Таким образом, наша окончательная классификационная модель является не только статистически надежной, но и применимой на практике и способной в значительной степени объяснить тенденции уязвимости к недоеданию среди новорожденных во всех районах Индии.

Эта классификация района по разным уровням уязвимости к недоеданию предоставит правительству и неправительственным организациям инструмент для смягчения воздействия LBW. Это позволит политикам и социологам выявлять и предотвращать недоедание, просто наблюдая за социально-экономическими данными и данными о здоровье. Таким образом, обеспечивается технологический подход к обеспечению безопасности питания.

Ссылки

[1] А. Индраян, «Эпидемиологические показатели здоровья детей», ​Медицинская биостатистика, третье издание (2012 г.)

[2] Нериюс Паулаускас, Ажуолас Фаустас Багдонас, «Использование фактора локального выброса для обнаружения аномалий сетевого потока», ​Security and Communications Network, (2015)

[3] Министерство здравоохранения и благосостояния семьи, Правительство Индии, «Питание в Индии», ​Национальное обследование здоровья семьи (NFHS-3) 2005–2006 гг.

[4] Сумит Чатурведи, «​Сравнение западного UP и Бунделькханда: человеческое развитие, гендер и лишения», ​Экономический и политический еженедельник (EPW), Vol. 50, вып. 20 2015