Что означает формула R, состоящая из нескольких частей, с математической точки зрения?

В пакете R Formula вводятся понятия для составной формулы, например y ~ x1 + x2|I(x1^2). Что означает эта формула математически? Чем это отличается от y ~ x1 + x2 + I(x1^2) или двух независимых y ~ x1 + x2 и y ~ I(x1^2)?


person user914532    schedule 08.12.2010    source источник


Ответы (1)


Вы, кажется, неправильно понимаете, для чего нужен пакет Formula. Составные формулы могут использоваться для обозначения всего, что вы, как пользователь/разработчик, хотите, чтобы они означали. Формула обеспечивает синтаксический сахар вокруг более гибкой записи формулы, предоставляемой пакетом. Составные формулы ничего не значат, пока вы не обработаете формулу, чтобы преобразовать символическое представление в матрицы модели или что-то подобное.

Пример, который вы цитируете в своем последующем «Ответе», это y ~ x1 + X2 | z1 +z2 + z3. Это для модели инструментальных переменных, подобранной двухэтапной МНК. Затем часть после | (z1 +z2 + z3) интерпретируется функцией ivcoef() как IV, а часть слева от | (x1 + x2) интерпретируется как ковариаты регрессии. ivcoef() строит две матрицы модели из этих частей правой части формулы, чтобы она соответствовала двухэтапной МНК. Формула предоставляет код для обработки и управления этими составными формулами, но не указывает, для каких статистических моделей они используются.

Другим примером является функция hurdle() в пакете pscl, которая использует функциональные возможности формулы. В этих моделях одна и та же формула y ~ x1 + X2 | z1 +z2 + z3 интерпретировалась бы по-разному; а именно, бит z1 +z2 + z3 будет использоваться для нулевого барьера (биномиальная часть модели барьера), в то время как бит x1 + X2 будет интерпретирован и использован для части счетчика модели барьера.

Я хочу сказать, что формулу можно интерпретировать как угодно, если вы создаете программное обеспечение. Если вы являетесь пользователем, вам необходимо понять подгоняемую модель, прежде чем вы сможете интерпретировать формулу, состоящую из нескольких частей, с точки зрения статистической модели. Таким образом, на ваш вопрос нет ответа; нет одного значения в математических терминах для формулы, состоящей из нескольких частей.

person Gavin Simpson    schedule 08.12.2010