Вопросы по теме 'dplyr'

Проблемы с dplyr при использовании group_by (несколько переменных)
Я хочу начать использовать dplyr вместо ddply, но не могу понять, как это работает (я прочитал документацию). Например, почему, когда я пытаюсь mutate () что-то, функция "group_by" работает не так, как должна? Смотрим на mtcars: библиотека...
95524 просмотров
schedule 28.02.2022

Ошибка при использовании функции выбора в R
Я хочу получить песню, которую пользователь играет чаще всего. Три поля, которые мне нужны в файле csv: userId, songId и playCount, но функция выбора выдает ошибку: write.csv(group_by(mydata,userId) %.% summarise(one=max(playCount)) %.%...
5472 просмотров
schedule 20.08.2022

Подгонка нескольких регрессионных моделей с помощью dplyr
Я хотел бы подобрать модель для каждого часа (факторную переменную) с помощью dplyr, я получаю сообщение об ошибке и не совсем уверен, что не так. df.h <- data.frame( hour = factor(rep(1:24, each = 21)), price = runif(504, min =...
38920 просмотров
schedule 14.02.2024

Вычисление формулы с помощью mutate()
Есть ли способ заставить mutate() оценивать формулы в пакете (d)plyr R? Я думаю о ситуациях, когда у вас есть много переменных, таких как count.a, count.b, ..., count.z , и я хотел бы создать новую переменную, чтобы суммировать все это. Я могу...
1401 просмотров
schedule 09.03.2023

Удалите повторяющиеся строки с помощью dplyr
У меня есть такой data.frame - set.seed(123) df = data.frame(x=sample(0:1,10,replace=T),y=sample(0:1,10,replace=T),z=1:10) > df x y z 1 0 1 1 2 1 0 2 3 0 1 3 4 1 1 4 5 1 0 5 6 0 1 6 7 1 0 7 8 1 0 8 9 1 0 9 10 0 1 10 Я...
136013 просмотров
schedule 01.02.2022

Новый столбец на основе шаблона в именах столбцов
У меня есть таблица данных. Я хочу создать новый столбец, равный функции значений в этих столбцах с шаблоном в имени столбца. library(data.table) library(dplyr) set.seed(1) DT <- data.table(Client = LETTERS[1:5], Apple_2012 = rpois(5,5),...
552 просмотров
schedule 26.05.2023

Суммируйте все значения группы и условное подмножество в одном вызове
Я проиллюстрирую свой вопрос на примере. Образец данных: df <- data.frame(ID = c(1, 1, 2, 2, 3, 5), A = c("foo", "bar", "foo", "foo", "bar", "bar"), B = c(1, 5, 7, 23, 54, 202)) df ID A B 1 1 foo 1 2 1 bar 5 3 2 foo 7 4...
90058 просмотров
schedule 22.02.2022

Помещение построчного подсчета вхождений значений в новые переменные, как это сделать в R с помощью dplyr?
У меня есть большой кадр данных (df), который выглядит так: structure(list(var1 = c(1, 2, 3, 4, 2, 3, 4, 3, 2), var2 = c(2, 3, 4, 1, 2, 1, 1, 1, 3), var3 = c(4, 4, 2, 3, 3, 1, 1, 1, 4), var4 = c(2, 2, 2, 2, 3, 2, 3, 4, 1), var5 = c(4, 4, 2,...
1825 просмотров
schedule 20.06.2023

Выборка по группе с использованием функции sample_n в dplyr
Согласно dplyr файлу справки, функция sample_n выбирает фиксированное число для каждой группы. Когда я запускаю следующий код, я ожидаю, что по два образца на комбинацию tobgp и alcgp, итого 32 (4 * 4 * 2) строки. Однако возвращаются только...
6921 просмотров
schedule 26.02.2023

Извлечь строку, соответствующую минимальному значению переменной по группе
Я хочу (1) сгруппировать данные по одной переменной ( State ), (2) в каждой группе найти строку с минимальным значением другой переменной ( Employees ) и (3) извлечь всю строку. (1) и (2) - простые однострочные, и я чувствую, что (3) тоже должно...
84336 просмотров
schedule 06.07.2022

Функция dplyr :: select конфликтует с MASS :: select
Если я загружу пакет MASS : library(MASS) затем загрузить попробуйте запустить dplyr::select , я получаю сообщение об ошибке: library(dplyr) mtcars %.% select(mpg) # Error in select(`__prev`, mpg) : unused argument (mpg) Как я...
51550 просмотров
schedule 29.10.2023

Для всех уровней фактора вернуть все уровни другого фактора из того же фрейма данных - используя dplyr? р
У меня очень большой набор данных, содержащий исторические результаты футбола. Вот его часть: Season home visitor FT 1954 Aston Villa SHW 0-0 1956 Aston Villa SHW 5-0 1957...
135 просмотров
schedule 04.04.2024

Почему этот dplyr dput не работает?
У меня есть кадр данных, полученный с использованием следующей последовательности операций с трубами: library(dplyr) data_agg = data %>% group_by(Year,Month) %>% summarise( monthly_users = sum(Users)) head(data_agg) выглядит...
195 просмотров
schedule 09.09.2022

Подмножество и присоединение к фрейму данных путем сопоставления во вложенном списке в R
Я пытаюсь объединить два фрейма данных, df и myData, в соответствии с элементами столбца каждого из них. Столбец в df целенаправленно содержит вложенные списки, и я хотел бы присоединиться, если элемент во вложенном списке соответствует элементу...
1684 просмотров
schedule 04.07.2023

Эффективное форматирование даты и времени в больших наборах данных в производительности R — dplyr
Этот вопрос касается производительности кода. У меня есть фрейм данных с двумя столбцами: DATE представлен как число в формате MMDDYYYY EPOCH — это представление времени с шагом 5 минут от полуночи. EPOCH счетчик начинается с 0,...
2805 просмотров
schedule 22.09.2022

dplyr 0.3 не может inner_join data.table?
У меня есть следующие настройки и загружены dplyr (0.3) и data.table (1.9.3). R version 3.1.1 (2014-07-10) Platform: x86_64-apple-darwin10.8.0 (64-bit) locale: [1] en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8 attached base...
2917 просмотров
schedule 28.06.2022

Создать переменную ранжирования с помощью dplyr?
Предположим, у меня есть следующие данные df = data.frame(name=c("A", "B", "C", "D"), score = c(10, 10, 9, 8)) Я хочу добавить новую колонку с рейтингом. Вот что я делаю: df %>% mutate(ranking = rank(score, ties.method = 'first')) #...
47364 просмотров
schedule 14.04.2024

использование пакетов dplyr и data.table в одном сеансе вызывает ошибку копирования в mutate()
Я хочу использовать функцию быстрого чтения пакета data.table для загрузки огромного CSV-файла. После загрузки я хочу преобразовать строковую переменную в фактор. Но когда я хочу изменить загруженный файл следующим образом: library(data.table)...
3246 просмотров
schedule 17.07.2023

Пользовательская функция суммирования в dplyr возвращает противоречивые результаты
Я создал пользовательскую функцию суммирования, которая игнорирует NA , если только все они не равны NA . Когда я использую его в dplyr , он возвращает странные результаты, и я не знаю, почему. require(dplyr) dta <-...
1365 просмотров
schedule 11.04.2024

Как извлечь одну конкретную группу в dplyr
Учитывая сгруппированную таблицу, могу ли я извлечь одну/несколько групп? Такая функция может быть полезна при прототипировании кода, например: mtcars %>% group_by(cyl) %>% select_first_n_groups(2) %>% do({'complicated...
4936 просмотров
schedule 16.02.2024