У меня возникла проблема с пакетом arulesSequences в R. Мне удалось прочитать корзины в программе и создать data.frame, однако он не распознает другие элементы, кроме первого столбца. Ниже приведен пример моего набора данных, который следует форме, показанной здесь: R/Sequence Mining/SPADE.
[sequenceID] [eventID] [SIZE] items
2 1 1 OB/Gyn
15 1 1 Internal_Medicine
15 2 1 Internal_Medicine
15 3 1 Internal_Medicine
56 1 2 Internal_Medicine Neurology
84 1 1 Oncology
151 1 2 Hematology Hematology
151 2 1 Hematology/Oncology
151 3 1 Hematology/Oncology
185 1 2 Gastroenterology Gastroenterology
Набор данных был экспортирован из SAS в формате [.CSV], а затем преобразован в файл с разделителями табуляции [.TXT] в Excel. Заголовки были удалены для импорта в R, но я поместил их в скобки выше для ясности в этом примере. Все пробелы были заменены символом подчеркивания ("_"), а названия элементов максимально упрощены. Каждый элемент указан в отдельной колонке. Для импорта файла использовалась следующая команда:
baskets <- read_baskets(con = "...filepath/spade.txt", sep = "[ \t]+",info=c("sequenceID", "eventID", "SIZE"))
У меня нет ошибок, поэтому я продолжаю следующую команду:
as(baskets, "data.frame")
Здесь он возвращает data.frame в соответствии с запросом, однако ему не удается захватить элементы за пределами первого столбца:
items sequenceID eventID SIZE
{OB/Gyn} 2 1 1
{Internal_Medicine} 15 1 1
{Internal_Medicine} 15 2 1
{Internal_Medicine} 15 3 1
{Internal_Medicine} 56 1 2
{Oncology} 84 1 1
{Hematology} 151 1 2
{Hematology/Oncology} 151 2 1
{Hematology/Oncology} 151 3 1
{Gastroenterology} 185 1 2
Строка 5 должна выглядеть так:
{Internal_Medicine, Neurology} 56 1 2
Я попытался импортировать файл напрямую как [.CSV], но формат data.frame аналогичен моей предыдущей попытке с использованием вкладок, за исключением того, что перед первым элементом ставится запятая:
{,Internal_Medicine} 56 1 2
Мы будем очень признательны за любые предложения по устранению неполадок. Кажется, что этот пакет придирчив, когда дело доходит до форматирования.