Я выполняю регрессию следующим образом (df
- это кадр данных pandas
):
import statsmodels.api as sm
est = sm.OLS(df['p'], df[['e', 'varA', 'meanM', 'varM', 'covAM']]).fit()
est.summary()
Что дало мне, среди прочего, R-квадрат 0.942
. Итак, я хотел построить исходные y-values
и подогнанные значения. Для этого я отсортировал исходные значения:
orig = df['p'].values
fitted = est.fittedvalues.values
args = np.argsort(orig)
import matplotlib.pyplot as plt
plt.plot(orig[args], 'bo')
plt.plot(orig[args]-resid[args], 'ro')
plt.show()
Это, однако, дало мне график, где значения полностью отклонялись. Ничего, что могло бы предложить R-квадрат 0.9
. Поэтому я попытался вычислить его вручную самостоятельно:
yBar = df['p'].mean()
SSTot = df['p'].apply(lambda x: (x-yBar)**2).sum()
SSReg = ((est.fittedvalues - yBar)**2).sum()
1 - SSReg/SSTot
Out[79]: 0.2618159806908984
Я делаю что-то неправильно? Или есть причина, по которой мои вычисления так далеки от того, что получают статистические модели? SSTot
, SSReg
имеют значения 48084
, 35495
.