Аналитика данных

  • Как вы справляетесь с отсутствующими данными?

    1. Удаление отсутствующих данных, но это приводит к потере данных и информации, если их много
    2. Замена отсутствующих данных средним/медианным значением или модой. Режим в случае категориального набора данных.
    3. Добавление двоичного столбца для указания отсутствующих данных или данных, не основанных на выполнении анализа с этими записями или без них
    4. Обновление подходящего значения для конкретного домена
  • Как вы справляетесь с импутацией данных?

    1. Выявление пропущенных значений, понимание закономерности.
    2. Выберите подходящий метод импутации — среднее или медиана для числовых переменных
    Режим импутации: для категориальных значений (с наиболее частым значением)
    Регрессионное импутирование: предскажите пропущенные значения с использованием модели регрессора
    Множественное импутирование: основанное на нескольких значениях импутирование для создания правдоподобных значений для отсутствующих данных
    /> 3. Реализовать выбранный метод импутации: использовать библиотеки или функции, характерные для языка программирования, для выполнения импутации
    4. Оценить набор импутированных данных, чтобы привести его в соответствие с ожидаемыми отклонениями или искажениями предполагаемых результатов, выполнить EDA и проверить сводную статистику, чтобы визуализировать импутированные переменные, оценить качество импутации.
    Импутация — это процесс оценки, он вносит неопределенность. Важно с осторожностью интерпретировать результаты любого анализа импутированных данных и учитывать ограничения, связанные с импутированием.
  • Как вы справляетесь с выбросами?

    1. Понять природу выбросов. это действительно или является результатом ошибок, ошибок при вводе данных или других аномалий
    2. Визуализация данных: использование точечной диаграммы, блочных диаграмм, гистограмм или любой другой подходящей визуализации для выявления потенциальных выбросов и понимания их влияния на распределение данных
    3. Оценка влияния выбросов на анализ или моделирование путем сравнения сводной статистики, коэффициентов регрессии, других показателей с выбросами или без них
    4. Учитывайте контекст и знание предметной области
    5. удалить выбросы — обрезать надежную статистику
    6. Преобразовать данные, чтобы сделать предположение о нормальном распределении модели. чтобы сделать логарифмический, квадратный корень
    7. отчет об обработке выбросов для прозрачности и воспроизводимости анализа
  • Каковы шаги по очистке набора данных для моделирования?

    Шаги по очистке набора данных -
    1. Выявление дубликатов, отсутствующих значений, выбросов, необходимости импутации данных
    2. Работа с несоответствиями и ошибочными данными
    3. Удаление дубликатов
    4. Стандартизация до общего масштаба и преобразование переменных
    5. Обработка категориальных переменных
    6. Проверка многоцветности линейность
    7. Проверка целостности данных и процесс очистки документов
  • Что такое нормализация?
    → Процесс приведения числовых переменных к общему масштабу. Цель состоит в том, чтобы привести переменные к сопоставимому диапазону и устранить влияние величины переменной на анализ или производительность модели.
    Методы —
    Мин-макс нормализация / Масштабирование значений от 0 до 1,
    x_normalized = (x-min(x)) / (max(x) — min(x))
    где, x — исходное значение
    — используется в методах анализа данных и моделирования, таких как кластеризация, PCA, алгоритмы ML
  • Что такое стандартизация?

    Стандартизация известна как нормализация Z-оценки или метод стандартизации Z-оценки, используемый для преобразования числовой переменной в среднее значение, равное 0, и стандартное отклонение, равное 1.
    Формула стандартизации —
    x_standardized = (x-mean(x))/ std(x)
    - x – исходное значение переменной, mean(x) – среднее значение переменной, а std(x) – стандартное отклонение переменной
    Отличается от min -максимальная нормализация (масштабирование признаков), поскольку она центрирует данные вокруг среднего значения и корректирует скорость с использованием стандартного отклонения. Он преобразует данные таким образом, что сохраняет форму распределения, но устанавливает среднее значение равным 0, а стандартное отклонение равным 1
    Преимущества —
    1. Сравнение переменных: сравнение переменных с разными единицами измерения или масштабами. Все переменные помещаются в общую шкалу, что упрощает сравнение относительной величины и вклада в анализ или модель.
    2. Интерпретируемость: стандартизированные переменные имеют среднее значение 0, интерпретация упрощается, поскольку положительные значения указывают на значения выше среднего, а отрицательные значения указывают на значения ниже среднего.
    3. Обработка выбросов: надежный способ, поскольку он основан на среднем значении и стандартном отклонении.
    Обычно используется в статистических методах, регрессионном анализе, алгоритмах PCA, ML. Варибалы с разными масштабами или единицами оцениваются в анализе одинаково.

Экспериментальный анализ набора данных/проверка гипотез

  • Объясните центральную предельную теорему
    → Это фундаментальная концепция в статистике, которая утверждает, что выборочное распределение среднего значения большого числа независимых и одинаково распределенных случайных величин будет приблизительно нормально распределено.
    Когда мы повторно используем выборку из совокупности и вычисляем средние значения этих выборок, распределение этих средних значений будет иметь тенденцию следовать нормальному распределению.
    Ключевые выводы —
    1. Нормальность выборочных средних
    2, Среднее значение и дисперсия выборочных средних
    3. Аппроксимация параметров совокупности
    Центральная предельная теорема широко используется в статистическом выводе и проверке гипотез. Это позволяет нам делать надежные выводы о популяции, даже если распределение популяции неизвестно или не является нормальным.
  • Что такое доверительный интервал?
    → Диапазон значений, построенный вокруг оценочного параметра, чтобы обеспечить меру неопределенности или точности
    количественно определяет уровень достоверности или вероятности того, что истинный параметр генеральной совокупности находится в пределах интервала.
    Доверительный интервал строится путем вычисления интервала вокруг выборочной оценки с заданным уровнем достоверности. Уровень достоверности представляет собой вероятность или вероятность того, что истинный параметр генеральной совокупности попадает в интервал. Обычно используются следующие уровни достоверности: 90 %, 95 % и 99 %.
    Доверительный интервал 95 % будет означать, что если вы повторите процесс выборки и оценки много раз, около 95 % полученных интервалов будут содержать истинное среднее значение генеральной совокупности.
    Доверительный интервал = среднее значение выборки ± (критическое значение * стандартное отклонение / √ размер выборки).

Критическое значение получают из соответствующего статистического распределения, такого как стандартное нормальное распределение (Z-распределение) или t-распределение, в зависимости от размера выборки и от того, известно или неизвестно стандартное отклонение совокупности.

Более широкий доверительный интервал указывает на большую неопределенность или меньшую точность оценки, а более узкий интервал указывает на более точную оценку.

Доверительные интервалы широко используются в статистических выводах и проверке гипотез. Они предоставляют диапазон правдоподобных значений параметра совокупности, позволяя исследователям и аналитикам принимать обоснованные решения и делать выводы о совокупности на основе выборочных данных.

  • Что такое остаток?
    → разница между наблюдаемым значением зависимой переменной и прогнозируемым значением из регрессионной модели. Остатки представляют собой необъяснимую вариацию или несоответствие между наблюдаемыми данными и значениями, предсказанными моделью.

Остаток = наблюдаемое значение — прогнозируемое значение
Ключевые моменты —
1. Положительные и отрицательные остатки — Posotve — наблюдаемое значение выше прогнозируемого значения, а отрицательное значение означает, что наблюдаемое значение ниже прогнозируемого значения
2. Сумма остатков
3. График остатков
4. Анализ остатков: гомоскедастичность, постоянное распределение переменной по набору данных и независимость

  • Что такое P-значение или альфа?

    P-значение, часто обозначаемое как α (альфа), представляет собой статистическую меру, используемую при проверке гипотез для оценки силы доказательств против нулевой гипотезы. Он представляет собой вероятность получения наблюдаемых данных или более экстремальных данных при условии, что нулевая гипотеза верна.
  • Что такое проверка гипотез?

    Проверка гипотез — это статистическая процедура, используемая для получения выводов и выводов о параметрах совокупности на основе выборочных данных. Он включает в себя формулирование двух конкурирующих гипотез, известных как нулевая гипотеза (H0) и альтернативная гипотеза (Ha), и оценку силы доказательств против нулевой гипотезы.
  • Общий процесс проверки гипотезы включает следующие этапы:
  1. Сформулируйте нулевую и альтернативную гипотезы H0 и Ha.
  2. Выберите уровень значимости (α)
  3. Выберите подходящий статистический тест
  4. Рассчитать тестовую статистику
  5. Определите p-значение или сравните критическое значение
  6. Прими решение
  • Что такое межквартильный диапазон?
    → Описывает изменчивость набора данных. Диапазон между первым квартилем Q1 и третьим квартилем Q3 в наборе данных, представляющий средние 50 % данных
    IQR рассчитывается как — IQR = Q3 — Q1
    Помогает — определение выбросов, ящичковые диаграммы, сравнение наборов данных
  • Что такое t-критерий, Что такое F-критерий?
    → t-критерий — это разница между средними значениями двух независимых групп или средним значением одной группы по сравнению с известным или предполагаемым значением. это уместно при работе с непрерывными числовыми данными и нормально распределенными.
    Типы — критерий Стьюдента для независимых выборок: сравнивает средние значения двух независимых групп, если они существенно различаются.
  • F-тест: используется для сравнения дисперсий или общего соответствия одной или нескольким группам. Обычно используется в ANOVA, чтобы определить, есть ли существенные различия между средними значениями нескольких групп или условий.
  • F-тест вычисляет F-значение, которое представляет собой отношение объясненной изменчивости к необъяснимой изменчивости. F-значение сравнивается с критическим значением или p-значением, чтобы определить, являются ли различия статистически значимыми.
  • Что такое матрица путаницы?

    Матрица путаницы, также известная как матрица ошибок, представляет собой таблицу, используемую для оценки эффективности модели классификации путем суммирования прогнозируемых и фактических меток классов набора данных. Он предоставляет подробную разбивку прогнозов модели, показывая количество истинных положительных результатов, истинных отрицательных результатов, ложных положительных результатов и ложных отрицательных результатов.
  • Что такое точность, полнота, F1-оценка и точность модели?
    → Матрица производительности, рассчитанная на основе матрицы путаницы —
    Точность: доля правильных прогнозов (TP + TN) от общего числа наблюдений. Точность = (TP + TN) / (TP + TN + FP + FN)
    Точность (также называемая положительной прогностической ценностью): доля истинно положительных прогнозов от общего числа положительных прогнозов. Точность = TP / (TP + FP)
    Отзыв (также известный как чувствительность или доля истинно положительных результатов): доля истинно положительных прогнозов от фактических положительных случаев. Отзыв = TP / (TP + FN)
    Специфичность (также известная как доля истинно отрицательных результатов): доля истинно отрицательных прогнозов от фактически отрицательных случаев. Специфичность = TN / (TN + FP)
    Оценка F1: гармоническое среднее значение точности и полноты, обеспечивающее сбалансированный показатель производительности модели. Оценка F1 = 2 * (Точность * Отзыв) / (Точность + Отзыв)
  • Что такое проклятие размерности?
    → «Проклятие размерности» относится к вызовам и проблемам, возникающим при работе с многомерными данными. Это относится к тому факту, что по мере увеличения количества измерений или признаков в наборе данных объем данных, необходимых для поддержания статистической значимости и предотвращения переобучения, увеличивается в геометрической прогрессии.
  • Что такое среднеквадратическая ошибка, что такое остаточная квадратичная ошибка?
  1. Среднеквадратическая ошибка (MSE):
  • MSE — это обычно используемый показатель для оценки производительности регрессионной модели. Он измеряет среднеквадратичную разницу между прогнозируемыми значениями и фактическими значениями.
  • Формула для MSE: MSE = (1/n) * Σ(yᵢ — ȳ)², где yᵢ — наблюдаемое значение, ȳ — среднее значение наблюдаемых значений, а n — количество наблюдений.
  • MSE берет среднее значение квадратов разностей, придавая больший вес большим ошибкам. Он обеспечивает меру среднего отклонения между прогнозируемыми и фактическими значениями, причем большие значения указывают на большие ошибки.
  1. Остаточная квадратичная ошибка:
  • Остаточная квадратичная ошибка относится к квадратам разностей между наблюдаемыми значениями и прогнозируемыми значениями из регрессионной модели. Он представляет собой отдельные квадраты ошибок для каждой точки данных в наборе данных.
  • Формула остаточной квадратичной ошибки для отдельной точки данных: остаточная квадратичная ошибка = (yᵢ — ȳ)², где yᵢ — наблюдаемое значение, а ȳ — прогнозируемое значение из модели.
  • Остаточная квадратичная ошибка обеспечивает меру величины ошибки для каждого конкретного прогноза. Он количественно определяет квадрат расстояния между наблюдаемым значением и прогнозируемым значением, давая представление о том, насколько прогнозы модели отклоняются от фактического значения.

В то время как MSE вычисляет среднюю квадратичную разницу по всем наблюдениям, остаточная квадратичная ошибка фокусируется на квадратичной разнице для каждой отдельной точки данных. MSE часто используется для подведения итогов общей производительности модели, в то время как Residual Squared Error дает представление об ошибках на индивидуальном уровне.

И MSE, и остаточная квадратичная ошибка являются неотрицательными значениями, причем более низкие значения указывают на лучшую производительность модели и меньшие ошибки прогнозирования. Они обычно используются в регрессионном анализе для сравнения моделей, выбора лучшей модели или оценки влияния различных переменных-предикторов.

  • Что такое значение R²?

Настройка гиперпараметров

  • Каковы методы настройки гиперпараметров?
  • Что такое параметры настройки?