
Машинное обучение в реальном мире отличается от соревнований по науке о данных, таких как Kaggle, drivendata и т. д. В то время как соревнования по науке о данных оптимизируют одну метрику, такую как AUC или потери журнала или RMSE и т. д., модели реального мира требуют более тщательного сравнения между моделями на разнообразие метрик. Чтобы практиковать настоящую науку о данных, нужно понимать и сравнивать различные метрики из отправки. Платформа Arithmetica предоставляет большинство результатов для каждой отправки в дополнение к сравнению эффективности отправки на основе одной метрики.

Арифметика дает возможность практиковаться, конкурировать и создавать практики, по-настоящему демократизируя науку о данных.

Следующие несколько общедоступных наборов данных доступны для практики:
Классификация маркеров, специфичных для саркоидоза

Саркоидоз — это заболевание, включающее аномальные скопления воспалительных клеток, образующих узелки, известные как гранулемы. Задача состоит в том, чтобы классифицировать маркеры, специфичные для саркоидоза, по экспрессии генов цельной крови. Владельцы набора данных предположили, что анализ экспрессии генов цельной крови с помощью микрочипов идентифицирует паттерны экспрессии генов, полезные для диагностики сакроидоза, и идентифицирует медиаторы воспаления, имеющие отношение к основной патофизиологии. Они проанализировали РНК цельной крови 37 пациентов с саркоидозом, 20 здоровых людей из контрольной группы и 6 пациентов с гиперчувствительным пневмонитом, используя полногеномные экспрессионные микрочипы.
Классификация типов обложек

Целью этого набора данных UCI было прогнозирование типа лесного покрова только на основе картографических переменных (без данных дистанционного зондирования). Фактический тип лесного покрова для данного наблюдения (ячейка 30 x 30 метров) был определен на основе данных Системы информации о ресурсах (RIS) для региона 2 Лесной службы США (USFS). Независимые переменные были получены из данных, первоначально полученных из Геологической службы США (USGS) и данных USFS. Данные представлены в необработанном виде (не в масштабе) и содержат двоичные (0 или 1) столбцы данных для качественных независимых переменных (районы дикой природы и типы почв).
Диабет 130 больниц США за 1999–2008 годы

Цель этого набора данных UCI состояла в том, чтобы предсказать результаты A1C. Этот набор данных был получен из статьи Влияние измерения HbA1c на частоту повторных госпитализаций: анализ 70 000 историй болезни пациентов из клинической базы данных.
Наконец, есть много других наборов данных, доступных для практики. Цель – узнать и обсудить. Бесплатная платформа Aritmetica также предлагает людям отправлять готовые наборы данных для улучшения коллективного интеллекта нашего поколения.