Вопросы по теме 'one-hot-encoding'
Сопоставление OneHotEncoding
Чтобы выделить категориальные функции, я использую LabelEncoder и OneHotEncoder. Я знаю, что LabelEncoder отображает данные в алфавитном порядке, но как OneHotEncoder отображает данные?
У меня есть фреймворк pandas dataFeat с 5 разными столбцами...
4375 просмотров
schedule
25.01.2024
Как кодировать категориальные функции в sklearn?
У меня есть набор данных с 41 функцией [от 0 до 40 столбцов], из которых 7 являются категориальными. Этот категориальный набор делится на два подмножества:
Подмножество строкового типа (функции столбца 1, 2, 3)
Подмножество типа int в двоичной...
3597 просмотров
schedule
29.06.2022
One Hot Encoding для слов из текстового корпуса
Как я могу создать одну горячую кодировку слов с каждым словом, представленным разреженным вектором размера словарного запаса и индексом этого конкретного слова, равным 1, используя тензорный поток?
что-то вроде
oneHotEncoding(words =...
2276 просмотров
schedule
19.07.2022
scikit-learn: одно горячее кодирование столбца со значениями списка
Я пытаюсь закодировать кадр данных, как показано ниже:
A B C 2 'Привет' ['мы', есть', 'хорошо'] 1 'Все' ['привет', 'мир']
Теперь, как вы можете видеть, я могу пометить строковые значения второго столбца, но я не могу понять, как кодировать...
3008 просмотров
schedule
07.09.2022
Одно горячее кодирование категориальных функций - только разреженная форма
У меня есть фрейм данных, который имеет целочисленные и категориальные функции. Категориальные признаки бывают двух типов: числа и строки.
Мне удалось выполнить одно горячее кодирование столбцов, которые были целочисленными и категориальными, то...
7195 просмотров
schedule
08.07.2023
Бинарная кроссентропия для наказания всех компонентов одного горячего вектора
Я понимаю, что двоичная кросс-энтропия - это то же самое, что категориальная кросс-энтропия в случае двух классов.
Кроме того, мне ясно, что такое softmax. Таким образом, я вижу, что категориальная кросс-энтропия просто наказывает один компонент...
2009 просмотров
schedule
29.09.2023
Одна категориальная функция горячего кодирования для использования в качестве обучающих данных с числовыми функциями в sklearn
Я пытаюсь обучить модель, которая считывает данные из CSV в качестве данных обучения. Для этого я пытаюсь выполнить одно горячее кодирование категориальных функций, а затем передать результирующие массивы единиц и нулей в качестве функций вместе с...
1021 просмотров
schedule
30.07.2023
Распространить строку на несколько столбцов в R
Я пытаюсь выполнить горячее кодирование приведенного ниже символьного кадра данных в R.
x1 <- c('')
x2 <- c('A1,A2')
x3 <- c('A2,A3,A4')
test <- as.data.frame(rbind(x1,x2,x3))
Пытаюсь привести данные к формату:
x1 <-...
1019 просмотров
schedule
23.10.2023
одноразовое кодирование на многомерных массивах с использованием pandas или scikit-learn
Я пытаюсь закодировать один горячий для своего фрейма данных. Это многомерный массив, и я не знаю, как это сделать. Фрейм данных может выглядеть так:
df = pd.DataFrame({'menu': [['Italian', 'Greek'], ['Japanese'], ['Italian','Greek',...
647 просмотров
schedule
04.03.2022
Как одним способом закодировать большой фрейм данных, когда несколько столбцов содержат одинаковые значения?
Название по сути отражает мою проблему.
У меня есть фрейм данных, и несколько столбцов имеют такие значения, как [0,1] , и если бы я пошел и один горячо закодировал df, у меня было бы несколько столбцов с тем же именем.
Утомительным решением...
1149 просмотров
schedule
15.11.2023
Горячее кодирование сразу нескольких столбцов категориальных переменных
У меня есть набор данных португальского банка, который я получил из репозитория машинного обучения UCI, который организован следующим образом:
> head(bank_data)
age job marital education default housing loan contact month...
1400 просмотров
schedule
13.11.2022
Как кодировать целочисленные маски как биты в фиктивные переменные в пандах
Я хотел бы кодировать целочисленные маски, хранящиеся в столбце данных pandas, в соответствующие двоичные функции, которые соответствуют битовым позициям в этих целых числах. Например, учитывая 4-битные целые числа и десятичное значение 11, я хотел...
628 просмотров
schedule
29.03.2022
Ошибка предсказания в svm-классификаторе после одного горячего кодирования
Я использовал одну горячую кодировку для своего набора данных перед обучением классификатора SVM. что увеличило количество функций в обучающем наборе до 982. Но во время прогнозирования тестового набора данных, который имеет 7 функций, я получаю...
1205 просмотров
schedule
21.11.2022
Это один горячий
Чтение:
http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html
в нем говорится, что «кодировать категориальные целочисленные функции с использованием схемы« один из K »».
Означает ли это, что он быстро...
169 просмотров
schedule
14.02.2022
Как использовать Pandas get_dummies для прогнозирования данных?
После использования Pandas get_dummies в 3 категориальных столбцах для получения одного кадра данных с горячим кодированием я обучил (с некоторым успехом) модель Perceptron.
Теперь я хотел бы предсказать результат нового наблюдения, что это не...
2018 просмотров
schedule
10.05.2023
Нужно ли мне обрабатывать ловушку фиктивной переменной вручную в регрессии или sklearn сделает это?
Я знаю, что мы должны сразу кодировать категориальные данные перед обучением алгоритму машинного обучения. но мой вопрос: нам нужно удалить один столбец вручную или sklearn сделает это?
1033 просмотров
schedule
20.10.2023
Горячий кодировщик Keras
У меня есть массив, и я использую функцию to_categorical в keras:
labels = np.array([1,7,7,1,7])
keras.utils.to_categorical(labels)
Я получаю этот ответ:
array([[0., 1., 0., 0., 0., 0., 0., 0.],
[0., 0., 0., 0., 0., 0., 0., 1.],...
4564 просмотров
schedule
16.04.2023
Смешивание числовых и категориальных данных в последовательную модель keras с плотными слоями
У меня есть тренировочный набор в фрейме данных Pandas, и я передаю этот фрейм данных в model.fit() с df.values . Вот некоторая информация о df:
df.values.shape
# (981, 5)
df.values[0]
# array([163, 0.6, 83, 0.52,
# array([0, 0, 0, 0,...
834 просмотров
schedule
17.03.2023
Pandas Dataframe: как разделить один столбец на несколько столбцов с горячим кодированием
У меня есть такой текстовый файл:
444537110 3 11112111022002200022022111121222002...
Последнее поле во входном файле имеет длину 50 тыс. символов и может быть только 0,1 или 2. Мне нужна одна версия этого последнего...
1209 просмотров
schedule
02.10.2022
Как я могу выровнять pandas get_dummies при обучении/проверке/тестировании?
У меня есть 3 набора данных (обучение, проверка и тестирование), и когда я запускаю:
training_x = pd.get_dummies(training_x, columns=['a', 'b', 'c'])
Это дает мне определенное количество функций. Но затем, когда я прогоняю его по данным...
3511 просмотров
schedule
18.07.2023