Публикации по теме 'data-cleaning'


Процесс очистки данных для машинного обучения
Очистка данных — одна из важнейших частей машинного обучения. Он играет важную роль в построении модели машинного обучения. Качество данных является важным аспектом для обучения модели машинного обучения. Неточные данные могут повлиять на результаты. Проблемы с качеством данных могут возникнуть в любой части информационных систем. Метод, который помогает преобразовать неправильные данные в значимые данные. Машинное обучение управляется данными. Благодаря методам очистки данных..

Машинное обучение похоже на стирку одежды
Автоматизация конвейера обработки данных с помощью связанных функций Azure Это сообщение и его код написаны в соавторстве с Codeprincess . Машинное обучение - это все о данных ... и алгоритмах. Но в первую очередь и самое главное - это данные. И это не просто данные, нам нужно достаточное , высокое качество и (и во многих случаях) «очищенные» данные. Когда мы говорим об очистке данных, мы обычно используем слово «споры». Пререкания похожи на стирку одежды: ваши грязные данные..

Демистификация искусственного интеллекта на нашем первом сеансе AI Fixer Session
Даже до того, как вы прочтете 8 статей о том, как ИИ либо приведет к киберутопии, либо уничтожит человечество , практические аспекты использования ИИ в бизнесе могут показаться загадочными. Поэтому мы собрали вместе несколько опытных предпринимателей, чтобы решить практические задачи и поучиться друг у друга, используя формат, который мы называем Fixer Sessions . Наш первый Fixer по искусственному интеллекту был сосредоточен на задаче Брайана Хэнки: проанализировать данные о кредитах..

Прогнозирование погоды в Индии с помощью машинного обучения в Azure Notebook
Я пишу эту статью с целью помочь вам понять применение очистки данных, анализа и машинного обучения. Я также расскажу, что и как выбрать модель машинного обучения. Я использую блокноты Azure, которые предоставляют бесплатный онлайн-доступ к блокнотам Jupyter, работающим в облаке Microsoft Azure . Эта статья является вкладом в инициативу MSP Developer Stories программы Microsoft Student Partners (Индия). Что такое машинное обучение? Прежде чем перейти к техническим терминам,..

Контрольный список для основного проекта машинного обучения
Пошаговое руководство от необработанных данных к работающей модели машинного обучения. TL; DR? Щелкните здесь , чтобы получить копию моего контрольного списка для вашего следующего проекта машинного обучения. Этот репозиторий Github также содержит шаблон .ipynb для контрольного списка и лабораторию по очистке данных с решениями, если вы хотите попрактиковаться или посмотреть, как можно использовать этот шаблон. Почему это важно? Вы когда-нибудь пробовали настоящее соревнование..

Книжный советник
Проект машинного обучения по созданию системы, которая будет давать лучшие предложения по типу книг, подходящих для пользователя. Алгоритм совместной фильтрации использовался для фильтрации книг. Системы рекомендаций очень полезны для нас, потому что мы всегда ищем какие-то ориентиры. Это очень типичная человеческая практика - прежде чем что-либо делать, принимая предложения от людей. Точно так же этот проект предназначен для подающих надежды ЧИТАТЕЛЕЙ, которые ищут совета у других,..

Вопросы по теме 'data-cleaning'

Какие есть хорошие инструменты для очистки данных?
Я анализирую большое количество сложных файлов (в основном CSV-файлы, но некоторые нет), и мне нужно структурировать/разбирать их в некоторые стандартные форматы. Это включает не только очистку данных по строкам, но и некоторую простую логику на...
3845 просмотров
schedule 05.03.2023

Как использовать Google Refine для замены строкового значения на Fingerprint?
У меня есть столбец с более чем 100 000 строк. Я хочу, чтобы Google Refine заменил эти строки своим отпечатком пальца. Я выбрал столбец в Google Refine и создал Text Facet. Из этого текстового аспекта я могу выбрать «Кластер». Это покажет мне...
934 просмотров

Выполнение операций над подмножеством с использованием таблицы данных
У меня есть набор данных опроса в широкой форме. Для конкретного вопроса в необработанных данных был создан набор переменных, чтобы отразить тот факт, что вопрос опроса был задан в определенном месяце. Я хочу создать новый набор переменных с...
521 просмотров
schedule 16.11.2023

Как использовать R для проверки согласованности данных (убедитесь, что нет противоречий между регистром и значением)?
Допустим, у меня есть: Person Movie Rating Sally Titanic 4 Bill Titanic 4 Rob Titanic 4 Sue Cars 8 Alex Cars **9** Bob Cars 8 Как видите, у Алекса есть противоречие. Все одни и те же фильмы...
2613 просмотров
schedule 08.07.2022

Заполнение данных с помощью .fillNA(), данные взяты из Quandl
Я получил некоторые данные о запасах из Quandl как по ценам на сырую нефть (WTI), так и по цене Caterpillar (CAT). Когда я объединяю два кадра данных вместе, у меня остается несколько NaN. Моя конечная цель - запустить .Pearsonr() для оценки...
572 просмотров
schedule 03.09.2023

Удаление результатов теста Бонферрони на выбросы в цикле
Я смоделировал свои данные, используя линейную регрессию. Я хочу запустить тест Бонферрони несколько раз и удалить соответствующие записи из своих данных. Моя проблема: я не могу извлечь идентификатор из outlierResult. Вот воспроизводимый код. Я...
929 просмотров

Возможное решение для очистки данных в R
У меня есть набор данных, который содержит два столбца даты и времени. Я хотел бы выровнять столбцы даты и времени в одной строке и удалить все справа от второго столбца даты и времени, если они не совпадают. Пример моей проблемы с набором данных...
177 просмотров
schedule 12.09.2023

Эффективно сравнивайте каждую пару дат в двух столбцах в Python
У меня есть фрейм данных со столбцом дат начала и столбцом дат окончания. Я хочу проверить целостность дат, убедившись, что дата начала предшествует дате окончания (т.е. start_date ‹end_date). У меня есть более 14 000 наблюдений, которые нужно...
1606 просмотров
schedule 14.03.2022

Как сгруппировать в строку значения одного и того же значения в столбце с R?
Я пытаюсь упорядочить набор данных, и я немного потерялся в этом. Я сделал все остальное, отфильтровал данные, устранил повторяющиеся значения, упорядочил по дате... но я застрял с этим, может быть, одним из самых простых частей. Моя цель -...
2932 просмотров
schedule 15.11.2023

Stata: объединить foreach с by
В моих данных отсутствуют некоторые значения для переменной issue . Я пытаюсь указать самое последнее прошедшее значение issue (для этого субъекта, идентифицированного id1 и id2), если таковое имеется. Если все прошлые значения issue...
122 просмотров
schedule 31.05.2023

почему очистка nodetool не может удалить лишние данные в узле cassandra
Мы добавили новый узел в кластер и несколько раз применили nodetool repair в новом узле. мы уверены, что в новом узле есть дополнительные данные, поэтому запустите nodetool cleanup , но после завершения второй очистки и следующего журнала...
1141 просмотров
schedule 20.08.2023

r - форматирование данных в уникальные ключи с течением времени, заполненные значением
Я уверен, что есть способ сделать это, но я, конечно, нигде его не нахожу, или я не знаю, как кратко задавать правильные вопросы, чтобы найти хороший ответ, поэтому мой фрейм данных имеет следующую структуру ... > head(df) city...
26 просмотров
schedule 28.12.2022

R: Отформатируйте столбцы фрейма данных, чтобы они были совместимы с таблицами поиска.
У меня есть два data.frames с шатким форматированием. Один из них — большая ссылка, а другой — подмножество, которое я хотел бы найти для извлечения дополнительных данных из ссылки, но форматирование затруднено. Меньшее подмножество выглядит так:...
40 просмотров
schedule 06.12.2022

Сравните даты в строке и устраните конфликты
У меня есть фрейм данных с идентификатором и три столбца даты, которые должны быть одинаковыми в каждой строке, но иногда возникают конфликты. Для каждой строки я хочу сравнить три даты, и если хотя бы две совпадают, то поставить эту дату, а если...
36 просмотров
schedule 15.02.2024

Как отформатировать данные с указанием страны и года для регрессии в R?
У меня есть несколько наборов данных с объясняющей переменной, которую я хочу использовать для объяснения нескольких других зависимых переменных. Данные получены с течением времени, и пояснительная переменная в настоящее время находится в формате,...
533 просмотров

программно редактировать, фильтровать и сохранять данные из каждого текстового файла в большом списке файлов в R?
Я загрузил исторические данные о погоде Германии, которые в общей сложности хранятся в 1080 txt файле (исходные данные можно найти на этом ftp: Исторические данные о погоде в Германии ), где данные каждой отдельной метеостанции хранятся в...
141 просмотров

Очистить текстовые данные в Python
Я хочу создать новый столбец для текстовых данных (каждая строка для этого столбца представляет собой одно описание) после удаления всех чисел (например, 189, 98001), специальных символов (', _, ", (,)) и букв с числа или специальные символы (e21x16,...
3509 просмотров
schedule 26.07.2022

установить значения числового атрибута равным нулю с помощью weka
Я разработал модель для регрессии. Теперь мне нужно передать набор данных в качестве входных данных и получить результаты прогнозирования в качестве выходных данных. Мой целевой атрибут является числовым, я думаю, мне нужно заполнить его «нулевым»...
398 просмотров

Добавить новый столбец в фрейм данных на основе значений в определенных строках в этом фрейме данных
Предположим, у меня есть кадр данных, такой как ниже people.dat <- data.frame("ID" = c(2001, 1001, 2005, 2001 5000), "Data" = c(100, 300, 500, 900, 200)) Что выглядит примерно так +------+------+ | ID | Data | +------+------+ | 2001...
95 просмотров
schedule 31.05.2022

Условное разделение строки кадра данных на основе второго пробела
У меня есть кадр данных, который я хочу разделить текстовую строку первого столбца на два столбца, но только после второго пробела в последовательности. Вот пример: test22 Ticker 1 Current SharePrice $6.57...
483 просмотров
schedule 31.07.2023