Публикации по теме 'statistical-analysis'


Разгадка сложности распределений в статистике
Навигация в сложном мире дистрибутивов: полное руководство по различным дистрибутивам, которые вы должны знать, прежде чем приступать к анализу данных. «Данные — это просто резюме тысяч историй — расскажите несколько таких историй, чтобы сделать данные значимыми». — Чип и Дэн Хит. Часть 3: Область науки о данных — это область, которая вращается вокруг данных. Из приведенных данных можно сделать разные выводы. Распределения используются, чтобы дать подробное представление о..

«Объяснить или предсказать»
«Объяснить или предсказать» Эта статья является личным мнением о феноменальной работе профессора Галита Шмуэли Объяснить или предсказать . Традиционно предсказание и объяснение относятся к одной категории. Считалось, что лучшие объяснительные модели также будут лучше предсказывать. Следовательно, люди в научном сообществе предпочитают исследовать причины и объяснять явление, чем просто предсказывать явление. Эту разницу можно понять из урока истории. Галилей в своей книге Две..

Вычислительная теория обучения и статистическая теория обучения в машинном обучении
В этой статье обсуждаются концепции вычислительной теории обучения (COLT) и статистической теории обучения (SLT) в машинном обучении. Он охватывает основные идеи и принципы этих теорий, включая модель PAC, сложность выборки и границы обобщения. В статье также приводятся примеры того, как эти концепции могут применяться в реальных задачах машинного обучения и демонстрации кода с использованием Python. Машинное обучение стало одной из самых востребованных областей исследования и..

Коэффициент инфляции дисперсии (VIF) и его связь с мультиколлинеарностью .
Я сидел в чайной с друзьями, весело посплетничая на выходных, пока готовился чай, когда один из моих друзей вдруг спросил: «Знаешь, что самое главное определяет вкус чая?» Один из нас ответил «это сахар», кто-то сказал «нет, это чайная заварка», что заставило меня задуматься «что на самом деле определяет исход события? Есть ли мера?» . Именно тогда я впервые познакомился с термином «Разработка функций». Что такое разработка функций? Разработка признаков — это наука об анализе..

Проверка ваших предположений о линейной регрессии и способы их проверки
Для многих новых и начинающих специалистов по данным линейная регрессия, скорее всего, является первой моделью машинного обучения, которую все изучают. Это довольно интуитивно понятно и просто для понимания. Ведь все начинается со знакомой формулы, где y = mx + b; скорее всего, большинство людей видели его в старшей школе или университете. Несмотря на то, что это популярная модель, начинающие специалисты по данным часто используют ее неправильно, потому что они не проверяют, верны ли..

Прогнозирование временных рядов
Мы увидим несколько простых статистических методов, которые используются в реальном мире для прогнозирования временных рядов с помощью Python. Скользящее среднее — это статистика, отражающая среднее изменение ряда данных с течением времени. Существует множество типов скользящих средних. Метод простого скользящего среднего Простая скользящая средняя ( SMA ) – это невзвешенное среднее значение предыдущих k точек данных. Его также называют скользящим средним или скользящим..

Статистика: Центральная тенденция
Математические примеры и примеры кодирования Python для объяснения полезных показателей, обобщающих данные. В нашем стремлении обобщить данные с помощью таблиц данных или визуальных эффектов мы хотели представить все данные целиком. Однако часто нам хотелось бы, чтобы была одна точка, репрезентативная для имеющихся данных. Использование любого экстремального значения в ряду данных объясняет только один конец ряда. Таким образом, может быть полезно использовать центральное..