Не пугайтесь суффикса .data, это проще, чем вы думаете!

В этой быстрой статье вы узнаете, как использовать наборы данных из UCI, которые поставляются с типом файлов .data.

Где можно найти данные?

Kaggle.com - отличный выбор для поиска данных, которые можно использовать в ваших проектах по науке о данных. Сайт наполнен интересными наборами данных, записными книжками других ученых и учебными пособиями. Все наборы данных, с которыми я столкнулся в Kaggle, были файлами .csv, это очень удобно при работе с пандами.

Вы можете задаться вопросом (по крайней мере, я), является ли Kaggle единственным местом, где можно найти данные.

Подсказка:
Это не так!

Вы также найдете потрясающие наборы данных в Репозитории машинного обучения UCI. Примером интересного набора данных является Набор данных по раку молочной железы Висконсин (Исходный).

Недавно я хотел использовать этот точный набор данных, чтобы попрактиковаться в моих навыках классификации. Однако я быстро столкнулся с некоторыми проблемами (по крайней мере, я так думал). Данные, которые я скачал, содержались в файле .data

Как вы с этим справляетесь?
Я точно не знал.

Поскольку я когда-либо работал только с файлами .csv (я относительно новый специалист по данным), все, что я знаю, - это использовать функцию pandas read_csv () для импорта моих наборы данных в DataFrame.

Чтобы загрузить данные, сначала щелкните папку с данными, которая перенесет вас на вторую страницу (нижняя половина следующего изображения), здесь вы щелкните файл, который хотите загрузить.

Файл .data можно открыть с помощью Microsoft Excel или Блокнота.
Я попробовал сделать последнее:

Вы можете видеть, что все точки данных разделены запятой!

Естественно, я попытался реализовать данные в Google Colab. Мне было очень любопытно, сработает это или нет.

Как видите, нет проблем с использованием read_csv () для чтения данных в DataFrame.

Это действительно показывает, насколько я считаю могущественными пандами!

Думаю, не хватает только одной мелочи. Имена столбцов. Итак, давайте добавим их.

Прокрутите немного вниз страницу набора данных в UCI, и вы найдете информацию об атрибутах. Это обеспечивает имена для функций в соответствующем наборе данных. Теперь мы можем добавить их в наш DataFrame.

Вы добавляете имена столбцов в свой DataFrame с помощью свойства .columns в DataFrame.
Взгляните:

Вот весь код из Google Colab, если вы хотите попробовать его самостоятельно (вам нужно будет загрузить данные из UCI и загрузить их в документ Colab):

import pandas as pd

dataset = pd.read_csv('breast-cancer-wisconsin.data')

dataset.columns = ['Id', 'Clump_thickness', 'Uniformity_cell_size', 'Uniformity_cell_shape', 'Marginal_adhesion', 'Single_e_cell_size', 'Bare_nuclei', 'Bland_chromatin', 'Normal_nucleoli', 'Mitoses', 'Class']

dataset.head()

Знаете ли вы?
Тип файла. data на самом деле является текстовым файлом. Он используется программным обеспечением интеллектуального анализа данных под названием analysis studio, однако программа больше не разрабатывается (источник: Fileinfo, посещение 15–08–2020).

Надеюсь, эта небольшая статья была вам полезна. Я счастлив, что теперь знаю, что могу без проблем использовать файлы .data из UCI!

Продолжайте учиться!
- Якоб Тофтгаард Расмуссен