У меня есть 2 больших набора данных, которые я объединил. Один набор данных содержит информацию о покупках, сделанных покупателями, другой набор данных содержит информацию о посещениях магазина теми же покупателями.
Когда я объединил данные, я сделал это с помощью customer_id, поэтому теперь у меня есть объединенный набор данных, который выглядит так:
# customer_no visit date purchase date
#2 10 20-10-2014 NA
#3 10 NA 12-01-2013
#4 10 17-06-2011 NA
#5 10 NA 18-02-2012
#8 30 22-12-2013 NA
#9 30 14-07-2012 NA
Я хотел бы создать новую переменную, которая дает мне разницу в днях между ПЕРВЫМ посещением и ПЕРВОЙ покупкой. Таким образом, R должен уметь определять, какая дата является первой в столбце посещений для каждого уникального customer_no, определять, какая дата первая в столбце покупок для того же customer_no, а затем вычислять разницу.
Предположительно, новый столбец будет содержать все NA и одно значение для каждого клиента.
Спасибо!!
Итак, в случае с клиентом № 10 она впервые посетила его 17.06.2011, но совершила первую покупку 18.02.2012 -> 246 дней. Я хотел бы знать среднее значение этого показателя для всех клиентов в объединенном наборе данных.
Спасибо!