Вопросы по теме 'apache-spark-mllib'

как добавить зависимость в spark при использовании sbt для компиляции?
когда я просматриваю введение в часть MLLIB, я читаю следующее предложение: «Чтобы использовать собственные библиотеки из netlib-java, соберите Spark с параметром -Pnetlib-lgpl или включите com.github.fommil.netlib:all:1.1.2 как зависимость вашего...
510 просмотров

Как я могу использовать приватные функции [mllib] в своем коде?
Я начал работать со искрой, в частности, с библиотекой mllib. некоторые из функций ограничены по объему и закрытым заявлениям. Как я могу использовать эти функции в своем коде? Пример: KMeans.scala private[mllib] def pointCost( centers:...
442 просмотров

Использование Breeze из Java на Spark MLlib
При попытке использовать MLlib из Java, как правильно использовать бриз Матричные операции? Например, умножение в scala это просто " matrix * vector ". Как соответствующая функциональность выражается в Java? Существуют такие методы, как "...
1454 просмотров

Ошибка зависимости Mllib
Я пытаюсь создать очень простое автономное приложение scala с помощью Mllib, но при попытке создать программу я получаю следующую ошибку: Object Mllib is not a member of package org.apache.spark Затем я понял, что мне нужно добавить Mllib в...
8805 просмотров
schedule 18.02.2023

Запустите KMeans с фиксированным начальным числом
Я хочу запустить алгоритм KMeans MLLIB (Apache Spark), но с воспроизводимыми результатами. Можно ли запустить KMeans MLLIB (Apache Spark) с фиксированным начальным числом? Как? Спасибо и привет,
865 просмотров

Как использовать mllib.recommendation, если идентификаторы пользователей представляют собой строку, а не непрерывные целые числа?
Я хочу использовать библиотеку Spark mllib.recommendation для создания прототипа рекомендательной системы. Однако формат пользовательских данных, который у меня есть, имеет следующий формат: AB123XY45678 CD234WZ12345 EF345OOO1234 GH456XY98765...
5426 просмотров

Апач Спарк | Каковы форматы входных файлов, требуемые spark MLlib для различных алгоритмов статистики?
Я новичок в Apacha Spark и MLlib. У меня есть четкое представление об использовании библиотеки (MLlib), кроме одной вещи. Я не понимаю, как мне подготовить файл входных данных для различных алгоритмов. Пожалуйста помоги. Спасибо.
465 просмотров
schedule 09.08.2022

Пример классификации MLlib останавливается на этапе 1
ИЗМЕНИТЬ : Я попытался использовать текст из ответа Габриэля и получил функции спама: 9 и функции ветчины: 13. Я попытался изменить HashingTF на numFeatures = 9, затем на 13, а затем создал по одному для каждого. Затем программа остановилась на...
1126 просмотров

ошибка памяти spark mllib на svd (одна машина)
У меня есть большой файл данных (около 4 ГБ), и я анализирую его с помощью spark на одном компьютере. scala> x res29: org.apache.spark.mllib.linalg.distributed.RowMatrix = org.apache.spark.mllib.linalg.distributed.RowMatrix@5a86096a scala>...
363 просмотров
schedule 27.05.2024

Сохраните Spark org.apache.spark.mllib.linalg.Matrix в файл.
Результатом корреляции в Spark MLLib является тип org.apache.spark.mllib.linalg.Matrix. (см. http://spark.apache.org/docs/1.2.1/mllib-statistics.html#correlations ) val data: RDD[Vector] = ... val correlMatrix: Matrix = Statistics.corr(data,...
4328 просмотров
schedule 30.04.2024

Как интегрировать Apache Spark с веб-приложением Spring MVC для интерактивных пользовательских сеансов
Я пытаюсь создать систему рекомендаций фильмов, используя Apache Spark MLlib. Я написал код для рекомендателя в java, и он отлично работает при запуске с помощью команды spark-submit . Моя команда запуска выглядит так bin/spark-submit --jars...
4789 просмотров

Как получить вероятность экземпляра в моделях классификаций в spark.mllib
Я использую spark.mllib.classification.{LogisticRegressionModel, LogisticRegressionWithSGD} и spark.mllib.tree.RandomForest для классификации. Используя эти пакеты, я создаю модели классификации. Только эти модели предсказывают конкретный класс для...
1185 просмотров

Мультиклассовая классификация с Random Forest в Apache Spark
документация Apache Spark (1.4.0) обещает, что Случайный лес (такое же обещание для деревьев решений) может быть расширен до настройки мультиклассовой классификации. Однако я не могу найти способ достичь этого с помощью RandomForestModel API:...
699 просмотров

Как создать обучающий файл для Spark MLlib Naive Bayes и рассчитать TF–IDF
Мне нужно классифицировать множество продуктов в дереве категорий, я тестирую Spark и Mlib Naive Bayes. Но я не понимаю, как я могу рассчитать TF-IDF. У меня есть файл тренера, как это: #filenameTrainer: 103,355 4 50 60 71 72 66 73 57 53...
295 просмотров

Преобразование RDD в LabeledPoint
Если у меня есть RDD с примерно 500 столбцами и 200 миллионами строк, а RDD.columns.indexOf("target", 0) показывает Int = 77 , который говорит мне, что моя целевая зависимая переменная находится в столбце номер 77. Но у меня недостаточно знаний о...
5968 просмотров

Как сгенерировать кортежи (исходная метка, прогнозируемая метка) в Spark с помощью MLlib?
Я пытаюсь делать прогнозы с помощью модели, которую я получил от MLlib на Spark. Цель состоит в том, чтобы сгенерировать кортежи (orinalLabelInData, predictedLabel). Затем эти кортежи можно использовать для оценки модели. Каков наилучший способ...
1350 просмотров
schedule 06.02.2024

Как получить вероятности (вместо одного фактического класса) из NaiveBayesModel в MLlib?
Я построил NaiveBayesModel в MLlib. Он отлично работает, но я хотел бы вернуть вероятности каждого класса для заданного ввода вместо окончательного и единственного решения модели, то есть, относится ли ввод к классу 1.0 или классу 0.0. Любые идеи?
221 просмотров

Spark MLlib — обучение совместной фильтрации с неявной обратной связью — странные предупреждения
Я пытаюсь создать модель совместной фильтрации для пользовательских заказов и получить некоторые полезные результаты с ALS.train() , но я хотел бы попробовать ALS.trianImplicit() , но trianImplicit() предсказывает только нули в том же наборе...
394 просмотров

Как преобразовать RDD со столбцом SparseVector в DataFrame со столбцом в качестве вектора
У меня есть RDD с кортежем значений (String, SparseVector), и я хочу создать DataFrame с помощью RDD . Чтобы получить (метка:строка, характеристики:вектор) DataFrame , которая является схемой, необходимой для большинства библиотек алгоритма мл....
9095 просмотров

Невозможно использовать вектор из Spark ML Lib для DataFrame
Когда я пытаюсь использовать UDF, который возвращает объект Vector, Spark выдает следующее исключение: Cause: java.lang.UnsupportedOperationException: Not supported DataType: org.apache.spark.mllib.linalg.VectorUDT@f71b0bce Как я могу...
1220 просмотров