Машинное обучение, наука о данных и искусственный интеллект

Цель этой статьи - подчеркнуть значение этих трех громких словечек, различия, отношения и связи, соединяющие их. Многие люди путают эти три разных домена. Даже некоторым инженерам машинного обучения и некоторым специалистам по данным не удается провести границу между собой. Я надеюсь, что к концу чтения этой статьи мы проясним это.

В 2018 году был опубликован отчет о неправомерном использовании со стороны компаний, заявляющих об использовании искусственного интеллекта в своих продуктах и услугах. По данным Verge, 40% европейских стартапов заявили, что используют ИИ, но не используют эту технологию. В 2017 году TechTalks также наткнулась на такое неправомерное использование компаниями, утверждающими, что они используют машинное обучение и передовой искусственный интеллект для сбора и изучения данных тысяч пользователей, чтобы повысить удобство использования их продуктов и услуг.

Я действительно рекомендую найти время, чтобы изучить, где они встречаются, а где нет. И на этом этапе чтения найдите время, чтобы ответить на ваши вопросы о работе, проделанной специалистом по данным и инженером по машинному обучению, где во всем этом участвуют глубокое обучение и анализ данных, какие инструменты и образовательный уровень необходимы для каждого работа / технология.

Давайте начнем с этой цитаты, в которой резюмируется взаимосвязь между тремя технологиями.

«ИИ - это более широкая концепция для создания интеллектуальных машин, которые могут имитировать способность и поведение человеческого мышления, тогда как машинное обучение - это приложение или подмножество ИИ, которое позволяет машинам учиться на основе данных без явного программирования. Наука о данных занимается большими данными и включает в себя очистку, подготовку и анализ данных. Специалист по данным собирает данные из нескольких источников и применяет машинное обучение ».

Очевидно, что эти три области пересекаются, но чтобы увидеть разницу, давайте посмотрим на конечную цель для каждого из них:

Наука о данных - это использование данных для обеспечения ценности (денег, роста, репутации и т. д.) для организации.
Машинное обучение - это использование данных для оптимизации выводов и прогнозов.
Искусственный интеллект - это использование данных для передачи машинным решениям в принятии решений.

Искусственный интеллект

Английский математик Алан Тьюринг создал фразу «искусственный интеллект» в 1950-х годах. Целью было (и есть) создание машин (компьютеров), которые мы считаем «умными» и которые могут выполнять различные задачи. ИИ - это такая же наука, как математика или биология. Он изучает способы создания интеллектуальных программ и машин, которые могут творчески решать проблемы, что всегда считалось прерогативой человека.

ИИ отличается от машинного обучения, потому что он работает над созданием интеллектуальной системы, которая может выполнять различные сложные задачи, тогда как машинное обучение работает над созданием машин, которые могут выполнять только те конкретные задачи, для решения которых они обучаются.

ИИ делится на Слабый ИИ, Общий ИИ и Сильный ИИ.

Машинное обучение

Машинное обучение - это исследование компьютерных алгоритмов, которые позволяют компьютерным программам автоматически улучшаться с приобретением опыта. Машинное обучение - это подмножество искусственного интеллекта (ИИ), которое дает системам возможность автоматически учиться и совершенствоваться на основе опыта без явного программирования. Основная предпосылка здесь - разработать алгоритмы, которые могут получать входные данные и использовать статистические модели для прогнозирования выходных данных при обновлении выходных данных по мере появления новых данных.

ML в основном делится на обучение с учителем, обучение без учителя и обучение с подкреплением.

В бизнес ML ≈ AI, искусственный интеллект и машинное обучение в бизнесе обычно означают одно и то же. Почему? Потому что большинство бизнес-приложений ИИ сводятся к контролируемому обучению, которое является подполе машинного обучения.

«99% экономической стоимости, создаваемой сегодня ИИ, создается за счет одного типа ИИ, который изучает от А до В или сопоставления входных данных с выходными». Эндрю Нг.

Однако позвольте мне привести пример проблемы, которую можно решить с помощью ML и без ML (то есть AI без ML): обнаружение объектов. Например, давая изображение и объект, я хочу найти на изображении, где появляется этот объект, для этой проблемы мы можем использовать ML (обнаружение объекта, оценка, вероятностный подход) или без ML (сопоставление с шаблоном, оценка, OpenCV).
Машинное обучение работает с наборами данных, ИИ не обязательно.

Data Science

Наука о данных - это концепция, используемая для работы с большими данными и включающая очистку, подготовку и анализ данных. Специалист по данным собирает данные из нескольких источников и применяет машинное обучение, прогнозную аналитику и анализ настроений для извлечения важной информации из собранных наборов данных.

Поскольку наука о данных - это широкий термин, обозначающий несколько дисциплин, машинное обучение вписывается в науку о данных. В машинном обучении используются различные методы, такие как регрессия и контролируемая кластеризация. С другой стороны, данные в науке о данных могут развиваться или не развиваться из машины или механического процесса. Основное различие между ними заключается в том, что наука о данных в более широком смысле фокусируется не только на алгоритмах и статистике, но также заботится обо всей методологии обработки данных.

Специалист по данным vs инженер по машинному обучению

Короче говоря, наука о данных - это исследование, построение и интерпретация модели, которую вы построили, а машинное обучение - это создание этой модели.

В целом, специалист по обработке данных может заниматься разными делами, но его основные функции заключаются в следующем:

Встречайтесь с заинтересованными сторонами, чтобы определить бизнес-проблему
Извлечь данные (SQL)
EDA, разработка функций, построение моделей и прогнозирование (Python и Jupyter Notebook)
В зависимости от рабочего места компилировать код в формат .py и / или маринованную модель

А работа инженера по машинному обучению может быть:

Pkl_file модели науки о данных
Сегмент хранилища (GCP - Google Cloud Composer)
DAG (для планирования тренера и оценщика модели)
Воздушный поток (визуализирует процесс - конвейер ML)
Докер (контейнеры и виртуализация)

Наука о данных: фокусируется на статистике и алгоритмах, неконтролируемых и контролируемых алгоритмах, регрессии и классификации, интерпретирует результаты, представляет и сообщает результаты.

Машинное обучение: сфокусируйтесь на разработке и программировании программного обеспечения, автоматизации, масштабировании, планировании, включении результатов модели в таблицу / склад / пользовательский интерфейс.

Таким образом, инженер по машинному обучению развертывает модель, созданную специалистами по анализу данных.

Глубокое обучение

Когда мы говорим о глубоком обучении, мы говорим об алгоритмах, способных имитировать действия человеческого мозга с помощью нейронных сетей, отсюда и термин «искусственный интеллект». Часто объясняется, что разница между машинным обучением и глубоким обучением заключается в том, что алгоритмы машинного обучения будут обрабатывать количественные и структурированные данные (числовые значения), в то время как алгоритмы глубокого обучения будут обрабатывать неструктурированные данные, такие как звук, текст, изображение. Итак, разница заключается в извлечении признаков. Тем не менее, глубокое обучение - это разновидность машинного обучения.

Это был краткий обзор, чтобы показать, что эти модные слова, которые часто используются неправильно, не относятся к одному и тому же. Как я уже говорил, некоторые инженеры машинного обучения и специалисты по данным не могут отличить друг от друга или у них нет четкого представления о различиях, которые можно было бы объяснить простыми словами. Поэтому, прежде чем переходить к машинному обучению, науке о данных, искусственному интеллекту, глубокому обучению, анализу данных ... найдите время и получите четкое представление об окружающем мире.