Вопросы по теме 'apache-spark-ml'
Как преобразовать RDD со столбцом SparseVector в DataFrame со столбцом в качестве вектора
У меня есть RDD с кортежем значений (String, SparseVector), и я хочу создать DataFrame с помощью RDD . Чтобы получить (метка:строка, характеристики:вектор) DataFrame , которая является схемой, необходимой для большинства библиотек алгоритма мл....
9095 просмотров
schedule
30.04.2023
Как объединить несколько векторов признаков в DataFrame?
Используя преобразователи Spark ML, я пришел к DataFrame , где каждая строка выглядит так:
Row(object_id, text_features_vector, color_features, type_features)
где text_features — разреженный вектор весов терминов, color_features —...
11231 просмотров
schedule
18.11.2022
Spark, DataFrame: применить преобразователь/оценщик к группам
У меня есть DataFrame, который выглядит следующим образом:
+-----------+-----+------------+
| userID|group| features|
+-----------+-----+------------+
|12462563356| 1| [5.0,43.0]|
|12462563701| 2| [1.0,8.0]|
|12462563701| 1|...
1212 просмотров
schedule
04.08.2023
Хэши функции Spark линейной регрессии
Я пытаюсь использовать LinearRegressionWithSGD Spark для прогнозирования цены товара по стране и устройству. Посмотрев раздел извлечения функций в Spark MLLib, я немного неясно, как я должен хешировать функции. Пример записи:
{"price": 3.37,...
174 просмотров
schedule
17.04.2023
Как преобразовать фрейм данных искры в RDD и получить пакет слов
У меня есть фрейм данных, называемый статьей
+--------------------+
| processed_title|
+--------------------+
|[new, relictual, ...|
|[once, upon,a,time..|
+--------------------+
Я хочу сгладить его, чтобы получить его как мешок слов....
744 просмотров
schedule
25.03.2024
Как оценить модель spark.ml без DataFrames/SparkContext?
С помощью Spark MLLib я бы построил модель (например, RandomForest ), а затем можно было оценить ее вне Spark, загрузив модель и используя predict для передачи вектора функций.
Похоже, что в Spark ML predict теперь называется transform и...
962 просмотров
schedule
23.12.2022
Как создать собственный записываемый трансформатор?
Я пишу собственный преобразователь spark.ml, расширяя Преобразователь .
Все в порядке, однако я не могу сохранить этот экземпляр этого трансформера, так как он не наследуется от трейта DefaultParamsWritable , как все трансформеры, и я не могу...
929 просмотров
schedule
18.01.2023
Как использовать регуляризацию L1 для LogisticRegressionWithLBFGS в spark MLlib
В официальной документации говорится что: регуляризация L2 используется по умолчанию
Как я могу использовать L1?
1985 просмотров
schedule
09.10.2022
Пользовательский трансформер в Pyspark ML
Я пытаюсь написать собственный оценщик, чтобы он соответствовал конвейеру, используя Pyspark 1.6.0, поэтому я пробую решение в Как создать пользовательский оценщик в PySpark mllib
Он работает в Spark 2.0, но когда я удаляю параметр TypeConverter...
485 просмотров
schedule
25.04.2023
Логистическая регрессия, как мультиклассируют классификации с использованием PySpark и вопросы
Я пытаюсь использовать Logistic Regression классифицировать наборы данных, который имеет разреженных Vector в вектор признаков:
Случай 1 : Я попытался с помощью трубопровода ML в MLLIB следующим образом:
# imported library from ML
from...
62 просмотров
schedule
01.06.2024
IllegalArgumentException, Неправильная ФС при записи модели ML в s3 из Spark (Scala)
Я создал модель:
val model = pipeline.fit(commentLower)
и я пытаюсь записать это на s3:
sc.hadoopConfiguration.set("fs.s3.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
sc.hadoopConfiguration.set("fs.s3.awsAccessKeyId",...
981 просмотров
schedule
18.02.2024
Оценка искрового трубопровода
Как я могу получить результат оценщика в искровом конвейере?
val evaluator = new BinaryClassificationEvaluator()
val cv = new CrossValidator()
.setEstimator(pipeline)
.setEvaluator(evaluator)
.setEstimatorParamMaps(paramGrid)...
853 просмотров
schedule
11.09.2022
Spark ML — MulticlassClassificationEvaluator — можем ли мы получить точность/отзыв по каждой метке класса?
Я делаю мультиклассовый прогноз со случайным лесом в Spark ML.
Для этого MulticlassClassificationEvaluator() в spark ML возможно ли получить точность/отзыв по каждой метке класса?
В настоящее время я вижу только сочетание точности/отзыва для...
2348 просмотров
schedule
11.03.2023
Как работает VectorSlicer в Spark 2.0?
В официальной документации Spark,
VectorSlicer — это преобразователь, который берет вектор признаков и выводит новый вектор признаков с подмассивом исходных признаков. Это полезно для извлечения признаков из векторного столбца....
836 просмотров
schedule
10.08.2023
Линейная регрессия Spark ML — какие гиперпараметры нужно настраивать
Я использую модель LinearRegression в Spark. ML для прогнозирования цены. Это одновариантная регрессия (x=time, y=price) .
Предположим, что мои данные чисты, какие обычные шаги нужно предпринять для улучшения этой модели?
До сих пор я...
1106 просмотров
schedule
13.11.2022
Рекомендации на основе запросов в реальном времени с помощью Spark — Spark JobServer?
Мы пытаемся найти способ загрузить обученную модель Spark (2.x) ML, чтобы по запросу (через интерфейс REST) мы могли запросить ее и получить прогнозы, например. http://predictor.com:8080/give/me/predictions?a=1,b=2,c=3
Существуют готовые...
595 просмотров
schedule
29.05.2023
Как использовать StringIndexer для генерации числовых переменных?
Я надеялся использовать StringIndexer как средство ранжирования 1000+ категорий в моем наборе данных, создавая индекс, который означает относительную частоту. Затем я мог бы использовать этот индекс в качестве числового признака для моей модели. К...
375 просмотров
schedule
13.03.2023
ApacheSparkML StringIndexer съедает мои столбцы
при применении StringIndexer к df_notnull (объект DataFrame), который содержит следующие столбцы:
scala> df_notnull.printSchema
root
|-- L0_S22_F545: string (nullable = true)
|-- L0_S0_F0: double (nullable = true)
|-- L0_S0_F2: double...
181 просмотров
schedule
08.09.2023
Соедините два конвейера Spark mllib вместе
У меня есть два отдельных DataFrames , каждый из которых имеет несколько различных этапов обработки, для обработки которых я использую mllib трансформаторы в конвейере.
Теперь я хочу объединить эти два конвейера вместе, сохранив функции...
2870 просмотров
schedule
24.08.2022
нормализатор spark-ml теряет метаданные
Я использую набор данных с категориальными функциями в PySpark, которые индексируются и кодируются одним горячим способом. После установки конвейера я извлекаю закодированные функции, используя метаданные столбца функций. Когда я включаю...
193 просмотров
schedule
07.03.2024