Статьи по теме spark

Публикации по теме 'spark'

Прогнозирование оттока с помощью Spark

Описание Проекта Следующий проект пытается предсказать скорость оттока пользователей в вымышленном музыкальном потоковом сервисе под названием Sparkify . Я использовал Spark в Amazon Web Services ( AWS ) с кластером Elastic Map Reduce ( EMR ) из 3 компьютеров m5.xlarge . Один водитель и два рабочих. Размер набора данных составляет 12 Гбайт, и он был прочитан из корзины AWS Simple Storage Service (S3) в формате JSON. Этот файл содержит информацию о действиях, зарегистрированных..

"Будет ли масштабироваться?"

Преимущества и скрытые проблемы перехода от пилотной версии к производственной в Spark Продукты и конвейеры машинного обучения - это рискованное вложение. Хотя внедрение ERP и развертывание программного обеспечения, скорее всего, увенчаются успехом при наличии достаточного количества времени и внимания, есть много причин, по которым концепция машинного обучения может потерпеть неудачу. Если вы превзойдете все шансы и разработаете работающий пилотный проект, который понравится..

Могу ли я обучить модель scikit-learn в 100 раз быстрее с помощью sk-dist?

Недавно я прочитал статью под названием Обучайте sklearn в 100 раз быстрее , в которой рассказывается о модуле Python с открытым исходным кодом под названием sk-dist . Модуль реализует распределенный« scikit-learn », расширяя его встроенное распараллеливание мета-оценки, например, pipeline.Pipeline , model_selection.GridSearchCV , feature_selection.SelectFromModel и ensemble.BaggingClassifier , и т. Д., Используя spark . Был час ночи. Мудрецы и женщины посоветовали..

Потоковое ML CI/CD за несколько дней: как мы улучшили нашу простую в использовании систему доставки кода для Spark…

Обзор Значимой тенденцией развития ИТ-бизнеса в настоящее время является готовность к работе с горячими данными, время жизни которых с момента их появления может составлять менее секунды. Допустим, вы приходите в магазин и берете кредит на покупку телефона. Вы хотите получить кредит на выгодных условиях. И банк хочет дать кредит проверенному клиенту. Временное окно, в котором вам нужны кредитные деньги, относительно короткое. Пример из домена Telecom. У вас закончились деньги, а в..

Механизм рекомендаций крупномасштабных вакансий с использованием неявных данных в pySpark

ПОЧЕМУ неявные данные? Поскольку мы, как ленивые пользователи, почти не выставляем оценки (явные данные) для всего, что мы делаем на любой платформе, будь то Netflix, Amazon, LinkedIn и т. Д. Мы просто следим за фильм (неявные данные), просмотрите продукт или щелкните элемент вакансии в LinkedIn и просто двигайтесь дальше. Предложение соответствующих рекомендаций практически каждому потребителю, с которым сталкивается бизнес, очень важно для превращения потенциальных клиентов в..

Использование стека Python ML внутри PySpark

Решение проблем сериализации в PySpark Если вы когда-либо пробовали использовать библиотеки, такие как numpy, scipy, scikit-learn, transformers, PyTorch или Tensorflow в PySpark, вы знаете, насколько сложно это может быть из-за ошибок сериализации, поскольку ядро Java Spark пытается распределить работу по кластеру. Это означает, что вам нужно использовать набор инструментов Spark ML, что не так желательно, как типичный стек Python ML. Решение? Используйте RDD вместо DataFrames..

Чему я научился на стажировке в Ampool.io

В мире науки о данных и обработки больших данных Ampool.io — это стартап, который делает все быстрее. Ampool — это хранилище данных, которое хранит данные в памяти (ОЗУ) для быстрых вычислений и аналитики в реальном времени. Это быстрее, чем распределенная файловая система Hadoop (отраслевой стандарт последних нескольких лет). Ampool построен с использованием Apache Geode и имеет интерактивный интерфейс, очень похожий на gfsh, который называется mash. Вы еще не можете выполнять..