ИЗМЕНИТЬ:
Я попытался использовать текст из ответа Габриэля и получил функции спама: 9 и функции ветчины: 13. Я попытался изменить HashingTF на numFeatures = 9, затем на 13, а затем создал по одному для каждого. Затем программа остановилась на «count at DataValidators.scala: 38», как и раньше.
Завершенные задания (4)
подсчитать на 21 (spamFeatures)
подсчитать на 23 (hamFeatures)
посчитать на 28 (trainingData.count ())
сначала на GeneralizedLinearAlgorithm на 34 (val model = lrLearner. запустить (trainingData)
1) Почему признаки подсчитываются по строкам, так как в коде они разделяются пробелами ("")
2) Две вещи, которые я вижу, отличаются от моего кода и кода Габриэля: а) У меня нет ничего о регистраторе, но это не должно быть проблемой ...
б) Мои файлы находятся на hdfs (hdfs: //ip-abc-de-.compute.internal:8020/user/ec2-user/spam.txt), опять же, не должно быть проблемой, но не уверен, что я что-то упускаю ...
3) Как долго я должен дать ему поработать? Я дал ему поработать не менее 10 минут с помощью: local [2] ..
Я предполагаю, что на данный момент это может быть какая-то проблема с моей настройкой Spark / MLlib? Есть ли еще более простая программа, которую я могу запустить, чтобы проверить, есть ли проблема с настройкой MLLib? Мне удалось запустить другие задания потоковой передачи искр / sql до ...
Спасибо!
[репост из сообщества искры]
Всем привет,
Я пытаюсь запустить этот пример MLlib из Learning Spark: https://github.com/databricks/learning-spark/blob/master/src/main/scala/com/oreilly/learningsparkexamples/scala/MLlib.scala#L48 а>
Что я делаю по-другому:
1) вместо их spam.txt и normal.txt у меня есть текстовые файлы с 200 словами ... вообще ничего огромного и просто текст с точками, запятыми и т. Д.
3) Я использовал numFeatures = 200, 1000 и 10,000
Ошибка: я все время застреваю, когда пытаюсь запустить модель (на основе подробностей из пользовательского интерфейса ниже):
val model = new LogisticRegressionWithSGD (). run (trainingData)
Он зависнет примерно так:
[Этап 1: ==============> (1 + 0) / 4]
Некоторые подробности с webui:
org.apache.spark.rdd.RDD.count(RDD.scala:910)
org.apache.spark.mllib.util.DataValidators$$anonfun$1.apply(DataValidators.scala:38)
org.apache.spark.mllib.util.DataValidators$$anonfun$1.apply(DataValidators.scala:37)
org.apache.spark.mllib.regression.GeneralizedLinearAlgorithm$$anonfun$run$2.apply(GeneralizedLinearAlgorithm.scala:161)
org.apache.spark.mllib.regression.GeneralizedLinearAlgorithm$$anonfun$run$2.apply(GeneralizedLinearAlgorithm.scala:161)
scala.collection.LinearSeqOptimized$class.forall(LinearSeqOptimized.scala:70)
scala.collection.immutable.List.forall(List.scala:84)
org.apache.spark.mllib.regression.GeneralizedLinearAlgorithm.run(GeneralizedLinearAlgorithm.scala:161)
org.apache.spark.mllib.regression.GeneralizedLinearAlgorithm.run(GeneralizedLinearAlgorithm.scala:146)
$line21.$read$$iwC$$iwC$$iwC$$iwC.<init>(<console>:33)
$line21.$read$$iwC$$iwC$$iwC.<init>(<console>:38)
$line21.$read$$iwC$$iwC.<init>(<console>:40)
$line21.$read$$iwC.<init>(<console>:42)
$line21.$read.<init>(<console>:44)
$line21.$read$.<init>(<console>:48)
$line21.$read$.<clinit>(<console>)
$line21.$eval$.<init>(<console>:7)
$line21.$eval$.<clinit>(<console>)
$line21.$eval.$print(<console>)
sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
Я не уверен, что делаю не так ... любая помощь приветствуется, спасибо!