Публикации по теме 'outliers'
Понимание выбросов: влияние, обнаружение и средства правовой защиты
Введение
Выбросы — это точки данных, которые значительно отклоняются от средних или типичных значений в наборе данных. Эти наблюдения, хотя и редкие, могут сильно повлиять на статистический анализ и модели машинного обучения, если их не учитывать должным образом. В этом блоге мы рассмотрим, что такое выбросы, почему они могут быть опасны, их влияние на модели машинного обучения и эффективные методы обнаружения и устранения выбросов.
Что такое выбросы?
Выбросы — это точки..
Исследовательский анализ данных-1: выбросы
Выбросы: выбросы — это точки данных, которые находятся далеко от остальных точек данных.
Выбросы будут влиять на среднее значение и стандартное отклонение набора данных. Итак, мы должны найти их, а затем удалить эти выбросы.
Создание массива с одним выбросом и наблюдение за тем, как выброс влияет на среднее значение и стандартное отклонение.
Наблюдение за средним значением и стандартным отклонением массива после удаления этого выброса.
Всегда удаление выбросов..
Выбросы в машинном обучении: понимание их влияния на анализ данных
Машинное обучение — это мощный инструмент, который может помочь компаниям извлекать ценную информацию из огромных объемов данных. Тем не менее, это не без проблем. Одной из наиболее серьезных проблем, с которыми сталкиваются специалисты по машинному обучению, является наличие выбросов в их наборах данных.
Выбросы — это точки данных, которые лежат далеко за пределами диапазона большинства точек данных в заданном наборе. Их причиной могут быть ошибки измерения, ошибки ввода данных..
Вопросы по теме 'outliers'
Несколько выбросов не удалены
Я работаю с огромным количеством данных, состоящих из выбросов. Код хорошо работает с большей частью набора данных, но не работает с немногими.
Данные образца:
set.seed(100)
m=rnorm(200)
m[1]=100 #inserting outlier
m[2]=50
Мой код:...
247 просмотров
schedule
18.11.2023
Удалить выбросы с линейного графика
Я хочу нарисовать линейный график с явным выбросом. Следующий набор данных является подмножеством того, который я использую:
Date PCROI
717 2014-06-28 38
718 2014-06-29 41
719 2014-06-30 36
720 2014-07-01 734
721 2014-07-02...
1416 просмотров
schedule
01.08.2023
Написание команды в R для удаления выбросов на остаточном графике
Я хочу удалить выбросы (определяемые как более 2 стандартных отклонений от среднего значения) на остаточных графиках?
какую команду написать?
DF.mod.2<- lm(X ~ A+ B+ C+ D+ F, data=DF)
Я получил среднее значение остатков с помощью этой...
7205 просмотров
schedule
26.03.2023
Реализация калибровки камеры RANSAC
Я просмотрел несколько библиотек, таких как OpenCV и т. д., но не смог найти реализацию калибровки камеры способом RANSAC. Я имею в виду, что я хочу выполнить калибровку, обеспечивающую точечные соответствия (P, p) (т.е. 3D -> 2D), которые могут...
1578 просмотров
schedule
02.07.2023
как удалить выбросы в кадре данных на основе категориальной переменной в R
У меня есть набор данных транзакционных данных, например:
prodid priceperitem date
62420 18.9 2014-10-09
62420 29.9 2014-09-20
62420 18.9 2014-10-11
62420 27.9 2014-07-04
62420...
2734 просмотров
schedule
26.06.2023
SAS Удалить выбросы
Я ищу макрос или что-то в SAS, которое может помочь мне выделить выбросы из набора данных. Я определяю выброс как: Верхняя граница: Q3+1,5(IQR) Нижняя граница: Q1-1,5(IQR). У меня есть следующий код SAS:
title 'Fall 2015';
proc univariate data =...
2726 просмотров
schedule
23.03.2022
Удаление результатов теста Бонферрони на выбросы в цикле
Я смоделировал свои данные, используя линейную регрессию. Я хочу запустить тест Бонферрони несколько раз и удалить соответствующие записи из своих данных. Моя проблема: я не могу извлечь идентификатор из outlierResult. Вот воспроизводимый код. Я...
929 просмотров
schedule
01.04.2022
Создание новой переменной для тега выброса
Итак, я делаю обнаружение выбросов для данного набора данных. Кстати, это делается в R.
С помощью функции boxplot.stats(x)$out я получаю информацию о переменной, для которой я обнаруживаю выбросы. Верно? Я получаю значение наблюдения, которое...
444 просмотров
schedule
22.08.2023
Как статистически идентифицировать выбросы с помощью кластеризации Kmeans
У меня есть следующие данные:
head(df.num1)
## num_critic_for_reviews duration director_facebook_likes
## 1 723 178 0
## 2 302 169 563
## 3...
1478 просмотров
schedule
26.10.2023
Критерий Кокрана C для резкой дисперсии с использованием C.test{GAD}
Я тестирую функцию C.test из пакета GAD , которая выполняет тест Кокрана C для выпадающих отклонений. У меня есть этот кадр данных измерений SO2 на разных станциях по всему городу, который имеет 3 столбца: станция, день и значение. Проблема с...
677 просмотров
schedule
09.07.2023
Замените выбросы для каждой группы
Я пытаюсь использовать функцию by для замены выбросов многих переменных в кадре данных в соответствии с переменной группы. Следующие мои усилия. Но я получаю сообщение об ошибке.
# R code:
library(tidyverse)
library(dplyr)
# outlier function...
131 просмотров
schedule
05.11.2023
Заменить значение в столбце фрейма данных pandas предыдущим
Мой код обнаруживает выбросы во временном ряду. Я хочу заменить выбросы в первом столбце фрейма данных на предыдущее значение, которое не является выбросом.
Этот код просто обнаруживает выбросы, создавая логический массив, где:
True...
849 просмотров
schedule
10.05.2022
Как проверить выброс для каждой переменной и изменить?
Я хочу проверить значение выброса каждой переменной в R и изменить значение выброса переменной на определенное значение.
Многие люди написали в stackoverflow, чтобы порекомендовать функцию outlierTest в пакете car.
Однако функция outlierTest...
863 просмотров
schedule
05.02.2024
Определите выбросы с самыми высокими квадратами остатков в модели линейной регрессии в R.
У меня есть набор данных [1000 x 80] из 1000 точек данных, каждая из которых имеет 80 значений переменных. Я должен линейно регрессировать две переменные: цену и площадь, и определить 5 точек данных, которые имеют самые высокие квадраты остатков....
1978 просмотров
schedule
01.09.2023
Вложенный цикл в R для обнаружения выбросов
Я хотел бы удалить выбросы для каждого кластера набора данных. Набор данных содержит 3 столбца с разными переменными и столбец, указывающий кластер, которому назначена каждая точка. Если только одна из трех переменных является выбросом, вся строка...
757 просмотров
schedule
10.03.2023
glm - обнаружение и удаление выбросов в R
Я построил бинарную логистическую модель. Переменная ответа является двоичной. Есть 4 регрессора - 2 двоичных и 2 целых. Я хочу найти выбросы и удалить их. Для этого я создал несколько графиков:
par(mfrow = c(2,2))...
4206 просмотров
schedule
25.09.2022
Фильтрация выбросов из DataFrame
У меня большая проблема с фильтрацией моих данных. Я много читал здесь о stackoverflow и других страницах и руководствах, но не смог решить свою конкретную проблему... Первая часть моего кода, где я загружаю свои данные в python, выглядит следующим...
391 просмотров
schedule
01.06.2023
Удаление выбросов фрейма данных в R с помощью `boxplot.stats`
Я относительно новичок в R, так что терпите меня.
Я использую набор данных Эймса (полное описание набора данных здесь ; ссылка на загрузку набора данных здесь ).
Я пытаюсь создать фрейм данных подмножества, который позволит мне выполнить...
1287 просмотров
schedule
04.01.2024
Удаление выбросов для линейной регрессии (Python)
Я хочу удалить эти 9 оранжевых точек из графика ниже, для этого мне нужно рассчитать показатель точности для каждой оранжевой точки и выбрать 9 самых низких. Как я могу это сделать? Я знаю функции, которые могут вычислить точность для всего...
6198 просмотров
schedule
19.10.2023
Обнаружение выбросов в столбце DataFrame с небольшими изменениями значений в пандах
Я работаю со столбцом, значения которого должны иметь небольшие изменения между строками. Значения являются физическими измерениями, и из-за факторов окружающей среды значения измерений могут быть неверными с очень большим шагом между...
219 просмотров
schedule
22.04.2023