Эта статья посвящена моему проекту на Python по прогнозированию приема студентов в университеты для обучения в аспирантуре с использованием линейной регрессии, случайного леса, машины опорных векторов и нейронной сети. Если вас интересует код, его можно найти здесь.

Введение

Консультационная служба по вопросам образования помогает студентам составить короткий список вузов для учебы в аспирантуре. Консультационная служба хочет знать вероятность поступления для студента на основе таких характеристик, как оценка GRE, оценка TOEFL, рейтинг университета, SOP, LOR и т. Д., Чтобы она могла эффективно составлять краткий список для студентов.

Набор данных

Набор данных получен из Kaggle - Graduate studies. Набор данных содержит подробную информацию о студентах, такую ​​как GRE, TOEFL, рейтинг университета, SOP, LOR, бакалавриат, исследовательский опыт и шанс зачисления. В наборе данных около 500 наблюдений и всего 9 функций.

Исследовательский анализ данных

  1. Проверьте отсутствующие значения

Отсутствующие значения создают множество проблем для моделирования и могут не дать точного результата, которого мы ожидали. Следовательно, первым шагом является устранение недостающих значений в наборе данных, если они есть. Способы обработки недостающих значений:

  • Отбросьте столбцы с пропущенными значениями
  • Подсчитайте средние значения для пропущенного значения
  • Подсчитайте медианные значения для пропущенного значения

В этом конкретном наборе данных нет пропущенных значений. Таким образом, нам не нужно выполнять какие-либо из вышеупомянутых преобразований.

2. Гистограмма оценок GRE:

Из приведенной выше гистограммы мы можем сделать вывод, что балл GRE большинства поступающих находится в диапазоне от 310 до 330. Также можно сделать вывод, что существует минимальное количество студентов, имеющих балл GRE выше 330. Существует также минимальное количество студентов. студенты, имеющие показатель GRE менее 310.

3. Гистограмма результатов TOEFL:

Вывод из приведенной выше гистограммы состоит в том, что значение балла TOEFL для поступающих находится в диапазоне от 98 до 115. Подобно гистограмме GRE, существует только минимальное количество студентов, имеющих балл TOEFL больше 115 и меньше 98. .

4. Гистограмма CGPA поступающих

Вывод из приведенного выше графика состоит в том, что большинство соискателей CGPA имеет оценку от 8 до 9,25 CGPA. Но минимальное количество претендентов набрало от 7 до 8 и от 9,25 до 10 баллов CGPA.

5. Гистограмма количества соискателей:

Мы можем сделать вывод, что более 250 соискателей провели исследование, и количество соискателей без исследования также велико.

6. Влияние исследований на вероятность признания

Из приведенных выше диаграмм мы можем сделать вывод, что соискатели с исследованием имеют более высокие шансы поступить во все университеты по сравнению с соискателями без исследования.

7. Матрица корреляции

На основе тепловой карты мы можем сделать следующие выводы:
* Шанс зачисления сильно коррелирует с результатом GRE, TOEFL и CGPA
* Шанс зачисления умеренно коррелирует с рейтингом университета, SOP и LOR
* Шансы на поступление слабо коррелируют с результатами исследований
* Оценка GRE очень положительно коррелирует с оценкой TOEFL
* CGPA сильно коррелирует с оценкой GRE, оценкой TOEFL

Заключение EDA:

Из исследовательского анализа данных мы можем сделать вывод, что количество наблюдений в этом конкретном наборе данных составляет 500, а количество присутствующих функций - 12.

Среди представленных функций мы можем отказаться от атрибута Серийный номер, поскольку он не влияет на шансы допуска соискателей.

Мы также можем определить положительную линейную зависимость между шансом поступления и оценкой CGPA, GRE, TOEFL. Также мы смогли выяснить, что у соискателей с исследовательской работой больше шансов получить допуск во все категории университетов по сравнению с теми, у кого нет исследований.

Моделирование

Предсказание вероятности поступления в университет относится к задачам регрессии, поскольку оно похоже на прогнозирование вероятности поступления в университет, значение которой находится в диапазоне от 0 до 1.

Чтобы получить лучшее представление о наиболее эффективной модели, когда дело доходит до прогнозирования шансов допуска соискателей, мы создали следующие модели:

  • Линейная регрессия
  • Случайный лес
  • Машина опорных векторов
  • Машина опорных векторов с поиском по сетке CV
  • Нейронная сеть с пакетной нормализацией и слоями исключения

Выбор наиболее эффективной модели зависит от множества факторов:

Точность - это самый важный фактор, который необходимо учитывать в большинстве моделей. По нашему мнению, точность определяет шанс того, что абитуриент сможет поступить в университет.

MSE или среднеквадратичная ошибка - один из наиболее предпочтительных показателей в большинстве задач регрессии. Проще говоря, MSE - это средний квадрат разницы между целевым значением и значением, предсказанным регрессионной моделью. Поскольку он возводит разницу в квадрат, он штрафует даже за небольшую ошибку, которая приводит к переоценке того, насколько плоха модель. Он предпочтительнее других показателей, потому что он дифференцируемый и, следовательно, может быть оптимизирован. Что касается MSE, то он должен быть как можно меньше для наиболее производительной модели.

Сводка показателей производительности для каждого алгоритма приведена в таблице ниже:

Интерпретация результата:

Из приведенной выше таблицы мы можем сделать вывод, что модель линейной регрессии, модель случайного леса, нейронная сеть и SVM с поиском по сетке работают хорошо по сравнению с другими моделями.

Принимая во внимание сценарии реального мира, мы должны учитывать, какая метрика наиболее важна. В этом случае мы можем рассмотреть метрику MSE, которая способна штрафовать даже за небольшую ошибку.

Следовательно, мы могли бы рассматривать нейронную сеть с пакетной нормализацией и слоями отсева как наиболее эффективную модель для определения шансов, которые имеет кандидат в обеспечении допуска на основе своего профиля.

Вывод:

В этой статье я ограничил свое исследование 5 алгоритмами, но не стесняйтесь экспериментировать с другими моделями регрессии.

Спасибо, что нашли время прочитать статью! Если у вас есть сомнения или критика, обязательно дайте мне знать !!