Вопросы по теме 'apache-spark-ml'

Как преобразовать RDD со столбцом SparseVector в DataFrame со столбцом в качестве вектора
У меня есть RDD с кортежем значений (String, SparseVector), и я хочу создать DataFrame с помощью RDD . Чтобы получить (метка:строка, характеристики:вектор) DataFrame , которая является схемой, необходимой для большинства библиотек алгоритма мл....
9095 просмотров

Как объединить несколько векторов признаков в DataFrame?
Используя преобразователи Spark ML, я пришел к DataFrame , где каждая строка выглядит так: Row(object_id, text_features_vector, color_features, type_features) где text_features — разреженный вектор весов терминов, color_features —...
11231 просмотров

Spark, DataFrame: применить преобразователь/оценщик к группам
У меня есть DataFrame, который выглядит следующим образом: +-----------+-----+------------+ | userID|group| features| +-----------+-----+------------+ |12462563356| 1| [5.0,43.0]| |12462563701| 2| [1.0,8.0]| |12462563701| 1|...
1212 просмотров

Хэши функции Spark линейной регрессии
Я пытаюсь использовать LinearRegressionWithSGD Spark для прогнозирования цены товара по стране и устройству. Посмотрев раздел извлечения функций в Spark MLLib, я немного неясно, как я должен хешировать функции. Пример записи: {"price": 3.37,...
174 просмотров

Как преобразовать фрейм данных искры в RDD и получить пакет слов
У меня есть фрейм данных, называемый статьей +--------------------+ | processed_title| +--------------------+ |[new, relictual, ...| |[once, upon,a,time..| +--------------------+ Я хочу сгладить его, чтобы получить его как мешок слов....
744 просмотров

Как оценить модель spark.ml без DataFrames/SparkContext?
С помощью Spark MLLib я бы построил модель (например, RandomForest ), а затем можно было оценить ее вне Spark, загрузив модель и используя predict для передачи вектора функций. Похоже, что в Spark ML predict теперь называется transform и...
962 просмотров

Как создать собственный записываемый трансформатор?
Я пишу собственный преобразователь spark.ml, расширяя Преобразователь . Все в порядке, однако я не могу сохранить этот экземпляр этого трансформера, так как он не наследуется от трейта DefaultParamsWritable , как все трансформеры, и я не могу...
929 просмотров
schedule 18.01.2023

Как использовать регуляризацию L1 для LogisticRegressionWithLBFGS в spark MLlib
В официальной документации говорится что: регуляризация L2 используется по умолчанию Как я могу использовать L1?
1985 просмотров

Пользовательский трансформер в Pyspark ML
Я пытаюсь написать собственный оценщик, чтобы он соответствовал конвейеру, используя Pyspark 1.6.0, поэтому я пробую решение в Как создать пользовательский оценщик в PySpark mllib Он работает в Spark 2.0, но когда я удаляю параметр TypeConverter...
485 просмотров
schedule 25.04.2023

Логистическая регрессия, как мультиклассируют классификации с использованием PySpark и вопросы
Я пытаюсь использовать Logistic Regression классифицировать наборы данных, который имеет разреженных Vector в вектор признаков: Случай 1 : Я попытался с помощью трубопровода ML в MLLIB следующим образом: # imported library from ML from...
62 просмотров

IllegalArgumentException, Неправильная ФС при записи модели ML в s3 из Spark (Scala)
Я создал модель: val model = pipeline.fit(commentLower) и я пытаюсь записать это на s3: sc.hadoopConfiguration.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem") sc.hadoopConfiguration.set("fs.s3.awsAccessKeyId",...
981 просмотров

Оценка искрового трубопровода
Как я могу получить результат оценщика в искровом конвейере? val evaluator = new BinaryClassificationEvaluator() val cv = new CrossValidator() .setEstimator(pipeline) .setEvaluator(evaluator) .setEstimatorParamMaps(paramGrid)...
853 просмотров

Spark ML — MulticlassClassificationEvaluator — можем ли мы получить точность/отзыв по каждой метке класса?
Я делаю мультиклассовый прогноз со случайным лесом в Spark ML. Для этого MulticlassClassificationEvaluator() в spark ML возможно ли получить точность/отзыв по каждой метке класса? В настоящее время я вижу только сочетание точности/отзыва для...
2348 просмотров

Как работает VectorSlicer в Spark 2.0?
В официальной документации Spark, VectorSlicer — это преобразователь, который берет вектор признаков и выводит новый вектор признаков с подмассивом исходных признаков. Это полезно для извлечения признаков из векторного столбца....
836 просмотров

Линейная регрессия Spark ML — какие гиперпараметры нужно настраивать
Я использую модель LinearRegression в Spark. ML для прогнозирования цены. Это одновариантная регрессия (x=time, y=price) . Предположим, что мои данные чисты, какие обычные шаги нужно предпринять для улучшения этой модели? До сих пор я...
1106 просмотров

Рекомендации на основе запросов в реальном времени с помощью Spark — Spark JobServer?
Мы пытаемся найти способ загрузить обученную модель Spark (2.x) ML, чтобы по запросу (через интерфейс REST) ​​мы могли запросить ее и получить прогнозы, например. http://predictor.com:8080/give/me/predictions?a=1,b=2,c=3 Существуют готовые...
595 просмотров

Как использовать StringIndexer для генерации числовых переменных?
Я надеялся использовать StringIndexer как средство ранжирования 1000+ категорий в моем наборе данных, создавая индекс, который означает относительную частоту. Затем я мог бы использовать этот индекс в качестве числового признака для моей модели. К...
375 просмотров

ApacheSparkML StringIndexer съедает мои столбцы
при применении StringIndexer к df_notnull (объект DataFrame), который содержит следующие столбцы: scala> df_notnull.printSchema root |-- L0_S22_F545: string (nullable = true) |-- L0_S0_F0: double (nullable = true) |-- L0_S0_F2: double...
181 просмотров

Соедините два конвейера Spark mllib вместе
У меня есть два отдельных DataFrames , каждый из которых имеет несколько различных этапов обработки, для обработки которых я использую mllib трансформаторы в конвейере. Теперь я хочу объединить эти два конвейера вместе, сохранив функции...
2870 просмотров

нормализатор spark-ml теряет метаданные
Я использую набор данных с категориальными функциями в PySpark, которые индексируются и кодируются одним горячим способом. После установки конвейера я извлекаю закодированные функции, используя метаданные столбца функций. Когда я включаю...
193 просмотров