Статьи по теме apache-spark-ml [apache-spark, pyspark, apache-spark-sql, apache-spark-mllib, apache-spark-ml]

Вопросы по теме 'apache-spark-ml'

Как преобразовать RDD со столбцом SparseVector в DataFrame со столбцом в качестве вектора

У меня есть RDD с кортежем значений (String, SparseVector), и я хочу создать DataFrame с помощью RDD . Чтобы получить (метка:строка, характеристики:вектор) DataFrame , которая является схемой, необходимой для большинства библиотек алгоритма мл....

9095 просмотров

30.04.2023

Как объединить несколько векторов признаков в DataFrame?

Используя преобразователи Spark ML, я пришел к DataFrame , где каждая строка выглядит так: Row(object_id, text_features_vector, color_features, type_features) где text_features — разреженный вектор весов терминов, color_features —...

11231 просмотров

machine-learning apache-spark apache-spark-sql apache-spark-ml

18.11.2022

Spark, DataFrame: применить преобразователь/оценщик к группам

У меня есть DataFrame, который выглядит следующим образом: +-----------+-----+------------+ | userID|group| features| +-----------+-----+------------+ |12462563356| 1| [5.0,43.0]| |12462563701| 2| [1.0,8.0]| |12462563701| 1|...

1212 просмотров

apache-spark apache-spark-mllib apache-spark-ml spark-dataframe

04.08.2023

Хэши функции Spark линейной регрессии

Я пытаюсь использовать LinearRegressionWithSGD Spark для прогнозирования цены товара по стране и устройству. Посмотрев раздел извлечения функций в Spark MLLib, я немного неясно, как я должен хешировать функции. Пример записи: {"price": 3.37,...

174 просмотров

machine-learning apache-spark pyspark data-science apache-spark-ml

17.04.2023

Как преобразовать фрейм данных искры в RDD и получить пакет слов

744 просмотров

apache-spark apache-spark-sql apache-spark-ml

25.03.2024

Как оценить модель spark.ml без DataFrames/SparkContext?

С помощью Spark MLLib я бы построил модель (например, RandomForest ), а затем можно было оценить ее вне Spark, загрузив модель и используя predict для передачи вектора функций. Похоже, что в Spark ML predict теперь называется transform и...

962 просмотров

apache-spark apache-spark-mllib apache-spark-ml

23.12.2022

Как создать собственный записываемый трансформатор?

Я пишу собственный преобразователь spark.ml, расширяя Преобразователь . Все в порядке, однако я не могу сохранить этот экземпляр этого трансформера, так как он не наследуется от трейта DefaultParamsWritable , как все трансформеры, и я не могу...

929 просмотров

apache-spark scala apache-spark-ml

18.01.2023

Как использовать регуляризацию L1 для LogisticRegressionWithLBFGS в spark MLlib

В официальной документации говорится что: регуляризация L2 используется по умолчанию Как я могу использовать L1?

1985 просмотров

machine-learning apache-spark apache-spark-mllib apache-spark-ml

09.10.2022

Пользовательский трансформер в Pyspark ML

Я пытаюсь написать собственный оценщик, чтобы он соответствовал конвейеру, используя Pyspark 1.6.0, поэтому я пробую решение в Как создать пользовательский оценщик в PySpark mllib Он работает в Spark 2.0, но когда я удаляю параметр TypeConverter...

485 просмотров

apache-spark pyspark apache-spark-ml

25.04.2023

Логистическая регрессия, как мультиклассируют классификации с использованием PySpark и вопросы

Я пытаюсь использовать Logistic Regression классифицировать наборы данных, который имеет разреженных Vector в вектор признаков: Случай 1 : Я попытался с помощью трубопровода ML в MLLIB следующим образом: # imported library from ML from...

62 просмотров

pyspark apache-spark-mllib apache-spark-ml logistic-regression pyspark-sql

01.06.2024

IllegalArgumentException, Неправильная ФС при записи модели ML в s3 из Spark (Scala)

Я создал модель: val model = pipeline.fit(commentLower) и я пытаюсь записать это на s3: sc.hadoopConfiguration.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem") sc.hadoopConfiguration.set("fs.s3.awsAccessKeyId",...

981 просмотров

amazon-s3 ibm-cloud apache-spark scala apache-spark-ml

18.02.2024

Оценка искрового трубопровода

Как я могу получить результат оценщика в искровом конвейере? val evaluator = new BinaryClassificationEvaluator() val cv = new CrossValidator() .setEstimator(pipeline) .setEvaluator(evaluator) .setEstimatorParamMaps(paramGrid)...

853 просмотров

apache-spark pipeline metrics apache-spark-ml evaluation

11.09.2022

Spark ML — MulticlassClassificationEvaluator — можем ли мы получить точность/отзыв по каждой метке класса?

Я делаю мультиклассовый прогноз со случайным лесом в Spark ML. Для этого MulticlassClassificationEvaluator() в spark ML возможно ли получить точность/отзыв по каждой метке класса? В настоящее время я вижу только сочетание точности/отзыва для...

2348 просмотров

machine-learning apache-spark apache-spark-ml multiclass-classification

11.03.2023

Как работает VectorSlicer в Spark 2.0?

В официальной документации Spark, VectorSlicer — это преобразователь, который берет вектор признаков и выводит новый вектор признаков с подмассивом исходных признаков. Это полезно для извлечения признаков из векторного столбца....

836 просмотров

apache-spark apache-spark-mllib apache-spark-ml

10.08.2023

Линейная регрессия Spark ML — какие гиперпараметры нужно настраивать

Я использую модель LinearRegression в Spark. ML для прогнозирования цены. Это одновариантная регрессия (x=time, y=price) . Предположим, что мои данные чисты, какие обычные шаги нужно предпринять для улучшения этой модели? До сих пор я...

1106 просмотров

apache-spark-ml hyperparameters linear-regression

13.11.2022

Мы пытаемся найти способ загрузить обученную модель Spark (2.x) ML, чтобы по запросу (через интерфейс REST) мы могли запросить ее и получить прогнозы, например. http://predictor.com:8080/give/me/predictions?a=1,b=2,c=3 Существуют готовые...

595 просмотров

apache-spark apache-spark-ml spark-jobserver

29.05.2023

Как использовать StringIndexer для генерации числовых переменных?

Я надеялся использовать StringIndexer как средство ранжирования 1000+ категорий в моем наборе данных, создавая индекс, который означает относительную частоту. Затем я мог бы использовать этот индекс в качестве числового признака для моей модели. К...

375 просмотров

apache-spark apache-spark-mllib apache-spark-ml

13.03.2023

ApacheSparkML StringIndexer съедает мои столбцы

при применении StringIndexer к df_notnull (объект DataFrame), который содержит следующие столбцы: scala> df_notnull.printSchema root |-- L0_S22_F545: string (nullable = true) |-- L0_S0_F0: double (nullable = true) |-- L0_S0_F2: double...

181 просмотров

apache-spark apache-spark-sql apache-spark-ml

08.09.2023

Соедините два конвейера Spark mllib вместе

У меня есть два отдельных DataFrames , каждый из которых имеет несколько различных этапов обработки, для обработки которых я использую mllib трансформаторы в конвейере. Теперь я хочу объединить эти два конвейера вместе, сохранив функции...

2870 просмотров

python apache-spark scala apache-spark-mllib apache-spark-ml

24.08.2022

нормализатор spark-ml теряет метаданные

Я использую набор данных с категориальными функциями в PySpark, которые индексируются и кодируются одним горячим способом. После установки конвейера я извлекаю закодированные функции, используя метаданные столбца функций. Когда я включаю...

193 просмотров

metadata apache-spark pyspark apache-spark-ml normalize

07.03.2024

Вопросы по теме 'apache-spark-ml'

Похожие вопросы