Смешивание числовых и категориальных данных в последовательную модель keras с плотными слоями

У меня есть тренировочный набор в фрейме данных Pandas, и я передаю этот фрейм данных в model.fit() с df.values. Вот некоторая информация о df:

df.values.shape
# (981, 5)

df.values[0]
# array([163, 0.6, 83, 0.52,
#       array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
#       0, 0, 0, 0, 0, 0, 0])], dtype=object)

Как видите, строки в df содержат 5 столбцов, 4 из которых содержат числовые значения (целые или числа с плавающей запятой), а один содержит массив с горячим кодированием, представляющий некоторые категориальные данные. Я создаю свою модель keras, как показано ниже:

model = keras.Sequential([
    keras.layers.Dense(1024, activation=tf.nn.relu, kernel_initializer=init_orth, bias_initializer=init_0),
    keras.layers.Dense(512, activation=tf.nn.relu, kernel_initializer=init_orth, bias_initializer=init_0),
    keras.layers.Dense(256, activation=tf.nn.relu, kernel_initializer=init_orth, bias_initializer=init_0),
    keras.layers.Dense(128, activation=tf.nn.relu, kernel_initializer=init_orth, bias_initializer=init_0),
    keras.layers.Dense(64, activation=tf.nn.relu, kernel_initializer=init_orth, bias_initializer=init_0),
    keras.layers.Dense(1, activation=tf.nn.sigmoid)
])

opt = keras.optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0, amsgrad=True)

model.compile(optimizer=opt, 
      loss='binary_crossentropy',
      metrics=['accuracy'])

model.fit(df.values, df_labels.values, epochs=10, batch_size=32, verbose=0)

df_labels.values - это просто одномерный массив из 0 и 1. Поэтому я считаю, что мне нужен сигмовидный слой Dense (1) в конце, а также потеря «binary_crossentropy».

Эта модель отлично работает, если я передаю только числовые данные. Но как только я ввожу горячие кодировки (категориальные данные), я получаю эту ошибку:

ValueError                                Traceback (most recent call last)
<ipython-input-91-b5e6232b375f> in <module>
     42     #trn_values = df_training_set.values[:,:,len(df_training_set.columns)]
     43     #trn_cat = df_trn_wtid.values.reshape(-1, 1)
---> 44     model.fit(df_training_set.values, df_training_labels.values, epochs=10, batch_size=32, verbose=0)
     45 
     46     #test_loss, test_acc = model.evaluate(df_test_set.values, df_test_labels.values)

~\Anaconda3\lib\site-packages\keras\engine\training.py in fit(self, x, y, batch_size, epochs, verbose, callbacks, validation_split, validation_data, shuffle, class_weight, sample_weight, initial_epoch, steps_per_epoch, validation_steps, **kwargs)
   1037                                         initial_epoch=initial_epoch,
   1038                                         steps_per_epoch=steps_per_epoch,
-> 1039                                         validation_steps=validation_steps)
   1040 
   1041     def evaluate(self, x=None, y=None,

~\Anaconda3\lib\site-packages\keras\engine\training_arrays.py in fit_loop(model, f, ins, out_labels, batch_size, epochs, verbose, callbacks, val_f, val_ins, shuffle, callback_metrics, initial_epoch, steps_per_epoch, validation_steps)
    197                     ins_batch[i] = ins_batch[i].toarray()
    198 
--> 199                 outs = f(ins_batch)
    200                 outs = to_list(outs)
    201                 for l, o in zip(out_labels, outs):

~\Anaconda3\lib\site-packages\keras\backend\tensorflow_backend.py in __call__(self, inputs)
   2713                 return self._legacy_call(inputs)
   2714 
-> 2715             return self._call(inputs)
   2716         else:
   2717             if py_any(is_tensor(x) for x in inputs):

~\Anaconda3\lib\site-packages\keras\backend\tensorflow_backend.py in _call(self, inputs)
   2653                 array_vals.append(
   2654                     np.asarray(value,
-> 2655                                dtype=tf.as_dtype(tensor.dtype).as_numpy_dtype))
   2656         if self.feed_dict:
   2657             for key in sorted(self.feed_dict.keys()):

~\Anaconda3\lib\site-packages\numpy\core\numeric.py in asarray(a, dtype, order)
    536 
    537     """
--> 538     return array(a, dtype, copy=False, order=order)
    539 
    540 

ValueError: setting an array element with a sequence.

Пожалуйста, не предлагайте расширять каждое значение в массивах one_hot в отдельные столбцы. Этот пример представляет собой урезанную версию моего набора данных, который содержит 6-8 категориальных столбцов, некоторые из one_hots представляют собой массивы размером более 5000. Так что это не осуществимое решение для меня. Я собираюсь, возможно, усовершенствовать свою модель Sequential (или полностью пересмотреть модель keras), чтобы обрабатывать категориальные данные вместе с числовыми данными.

Помните, что обучающие метки представляют собой одномерный массив значений 0/1. Мне нужны как числовые/категориальные обучающие наборы, предсказывающие один набор результатов, я не могу иметь один набор прогнозов на основе числовых данных и один набор прогнозов на основе категориальных данных.

jlewkovich 19.03.2019 источник

Ответы (1)

arrow_upward
0
arrow_downward

Если сведение массива из более чем 5000 единиц горячего кодирования представляет собой проблему, возможно, следует использовать встраивание 1-го слоя. вместо. Кроме того, вы можете иметь модель (определяемую с помощью функционального API вместо последовательного API. как и вы), который принимает 2 входа, один для числового ввода, а другой для категориальных данных. Затем категориальные данные могут пройти через встраивание, а затем через слой объединить с числовым вводом. С этого момента ваша модель работает так же, как и сейчас (слой 1024 ячеек...).

Shadi 29.03.2019

comment

Это очень полезно, лучше всего, если это возможно, использовать фрагмент рабочего кода. Я также вернусь к коду позже. - jlewkovich; 06.04.2019

Смешивание числовых и категориальных данных в последовательную модель keras с плотными слоями

Ответы (1)

Похожие вопросы