У меня есть следующий ДФ:
Date Event_Counts Category_A Category_B
20170401 982457 0 1
20170402 982754 1 0
20170402 875786 0 1
Я подготавливаю данные для регрессионного анализа и хочу стандартизировать столбец Event_Counts, чтобы он имел такой же масштаб, как и категории.
Я использую следующий код:
from sklearn import preprocessing
df['scaled_event_counts'] = preprocessing.scale(df['Event_Counts'])
Пока я получаю это предупреждение:
DataConversionWarning: Data with input dtype int64 was converted to float64 by the scale function.
warnings.warn(msg, _DataConversionWarning)
кажется, это сработало; есть новая колонка. Однако у него есть отрицательные числа, такие как -1,3.
Я думал, что функция масштабирования вычитает среднее значение из числа и делит его на стандартное отклонение для каждой строки; затем добавьте минимум результата к каждой строке.
Разве это не работает для панд таким образом? Или мне следует использовать функцию normalize() или функцию StandardScaler()? Я хотел, чтобы столбец стандартизации имел шкалу от 0 до 1.
Благодарю вас