Вопросы по теме 'one-hot-encoding'

Сопоставление OneHotEncoding
Чтобы выделить категориальные функции, я использую LabelEncoder и OneHotEncoder. Я знаю, что LabelEncoder отображает данные в алфавитном порядке, но как OneHotEncoder отображает данные? У меня есть фреймворк pandas dataFeat с 5 разными столбцами...
4375 просмотров
schedule 25.01.2024

Как кодировать категориальные функции в sklearn?
У меня есть набор данных с 41 функцией [от 0 до 40 столбцов], из которых 7 являются категориальными. Этот категориальный набор делится на два подмножества: Подмножество строкового типа (функции столбца 1, 2, 3) Подмножество типа int в двоичной...
3597 просмотров

One Hot Encoding для слов из текстового корпуса
Как я могу создать одну горячую кодировку слов с каждым словом, представленным разреженным вектором размера словарного запаса и индексом этого конкретного слова, равным 1, используя тензорный поток? что-то вроде oneHotEncoding(words =...
2276 просмотров
schedule 19.07.2022

scikit-learn: одно горячее кодирование столбца со значениями списка
Я пытаюсь закодировать кадр данных, как показано ниже: A B C 2 'Привет' ['мы', есть', 'хорошо'] 1 'Все' ['привет', 'мир'] Теперь, как вы можете видеть, я могу пометить строковые значения второго столбца, но я не могу понять, как кодировать...
3008 просмотров

Одно горячее кодирование категориальных функций - только разреженная форма
У меня есть фрейм данных, который имеет целочисленные и категориальные функции. Категориальные признаки бывают двух типов: числа и строки. Мне удалось выполнить одно горячее кодирование столбцов, которые были целочисленными и категориальными, то...
7195 просмотров

Бинарная кроссентропия для наказания всех компонентов одного горячего вектора
Я понимаю, что двоичная кросс-энтропия - это то же самое, что категориальная кросс-энтропия в случае двух классов. Кроме того, мне ясно, что такое softmax. Таким образом, я вижу, что категориальная кросс-энтропия просто наказывает один компонент...
2009 просмотров

Одна категориальная функция горячего кодирования для использования в качестве обучающих данных с числовыми функциями в sklearn
Я пытаюсь обучить модель, которая считывает данные из CSV в качестве данных обучения. Для этого я пытаюсь выполнить одно горячее кодирование категориальных функций, а затем передать результирующие массивы единиц и нулей в качестве функций вместе с...
1021 просмотров

Распространить строку на несколько столбцов в R
Я пытаюсь выполнить горячее кодирование приведенного ниже символьного кадра данных в R. x1 <- c('') x2 <- c('A1,A2') x3 <- c('A2,A3,A4') test <- as.data.frame(rbind(x1,x2,x3)) Пытаюсь привести данные к формату: x1 <-...
1019 просмотров
schedule 23.10.2023

одноразовое кодирование на многомерных массивах с использованием pandas или scikit-learn
Я пытаюсь закодировать один горячий для своего фрейма данных. Это многомерный массив, и я не знаю, как это сделать. Фрейм данных может выглядеть так: df = pd.DataFrame({'menu': [['Italian', 'Greek'], ['Japanese'], ['Italian','Greek',...
647 просмотров

Как одним способом закодировать большой фрейм данных, когда несколько столбцов содержат одинаковые значения?
Название по сути отражает мою проблему. У меня есть фрейм данных, и несколько столбцов имеют такие значения, как [0,1] , и если бы я пошел и один горячо закодировал df, у меня было бы несколько столбцов с тем же именем. Утомительным решением...
1149 просмотров
schedule 15.11.2023

Горячее кодирование сразу нескольких столбцов категориальных переменных
У меня есть набор данных португальского банка, который я получил из репозитория машинного обучения UCI, который организован следующим образом: > head(bank_data) age job marital education default housing loan contact month...
1400 просмотров
schedule 13.11.2022

Как кодировать целочисленные маски как биты в фиктивные переменные в пандах
Я хотел бы кодировать целочисленные маски, хранящиеся в столбце данных pandas, в соответствующие двоичные функции, которые соответствуют битовым позициям в этих целых числах. Например, учитывая 4-битные целые числа и десятичное значение 11, я хотел...
628 просмотров

Ошибка предсказания в svm-классификаторе после одного горячего кодирования
Я использовал одну горячую кодировку для своего набора данных перед обучением классификатора SVM. что увеличило количество функций в обучающем наборе до 982. Но во время прогнозирования тестового набора данных, который имеет 7 функций, я получаю...
1205 просмотров
schedule 21.11.2022

Это один горячий
Чтение: http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html в нем говорится, что «кодировать категориальные целочисленные функции с использованием схемы« один из K »». Означает ли это, что он быстро...
169 просмотров

Как использовать Pandas get_dummies для прогнозирования данных?
После использования Pandas get_dummies в 3 категориальных столбцах для получения одного кадра данных с горячим кодированием я обучил (с некоторым успехом) модель Perceptron. Теперь я хотел бы предсказать результат нового наблюдения, что это не...
2018 просмотров
schedule 10.05.2023

Нужно ли мне обрабатывать ловушку фиктивной переменной вручную в регрессии или sklearn сделает это?
Я знаю, что мы должны сразу кодировать категориальные данные перед обучением алгоритму машинного обучения. но мой вопрос: нам нужно удалить один столбец вручную или sklearn сделает это?
1033 просмотров

Горячий кодировщик Keras
У меня есть массив, и я использую функцию to_categorical в keras: labels = np.array([1,7,7,1,7]) keras.utils.to_categorical(labels) Я получаю этот ответ: array([[0., 1., 0., 0., 0., 0., 0., 0.], [0., 0., 0., 0., 0., 0., 0., 1.],...
4564 просмотров
schedule 16.04.2023

Смешивание числовых и категориальных данных в последовательную модель keras с плотными слоями
У меня есть тренировочный набор в фрейме данных Pandas, и я передаю этот фрейм данных в model.fit() с df.values . Вот некоторая информация о df: df.values.shape # (981, 5) df.values[0] # array([163, 0.6, 83, 0.52, # array([0, 0, 0, 0,...
834 просмотров

Pandas Dataframe: как разделить один столбец на несколько столбцов с горячим кодированием
У меня есть такой текстовый файл: 444537110 3 11112111022002200022022111121222002... Последнее поле во входном файле имеет длину 50 тыс. символов и может быть только 0,1 или 2. Мне нужна одна версия этого последнего...
1209 просмотров

Как я могу выровнять pandas get_dummies при обучении/проверке/тестировании?
У меня есть 3 набора данных (обучение, проверка и тестирование), и когда я запускаю: training_x = pd.get_dummies(training_x, columns=['a', 'b', 'c']) Это дает мне определенное количество функций. Но затем, когда я прогоняю его по данным...
3511 просмотров
schedule 18.07.2023