Апач Спарк | Каковы форматы входных файлов, требуемые spark MLlib для различных алгоритмов статистики?

Я новичок в Apacha Spark и MLlib. У меня есть четкое представление об использовании библиотеки (MLlib), кроме одной вещи. Я не понимаю, как мне подготовить файл входных данных для различных алгоритмов. Пожалуйста помоги. Спасибо.

java apache-spark apache-spark-mllib

Vishal Kaushik 05.02.2015 источник

Ответы (1)

arrow_upward
0
arrow_downward

Если вы посмотрите на примеры, представленные на странице MLlib, вы сможете найти пример, который подробно описывает создание входных данных. Чтобы предоставить указатель, предположим, что у вас есть текстовый CSV-файл в хранилище, в котором последняя строка является меткой. Затем следующий код создаст для вас помеченную точку RDD, которую можно отправить в алгоритмы MLlib.

val inputData = trainTextData.map { lines =>
      val parts = lines.split(",")
      LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray))
    }.cache

Таким же образом вы можете написать свои карты для создания данных из вашего ввода. Однако это будет сильно зависеть от ваших данных.

Community 05.02.2015

comment

На данный момент у нас есть набор входных данных, мы запускаем заданные строки программы в примерах и получаем некоторый результат. Под этим упражнением я не понимаю логического функционирования на данном входе. Доступна ли какая-либо надлежащая документация для алгоритмов MLlib, например, что эти вызовы функций означают технически, какие заполнители и метки используются в формате, который мы используем для алгоритма? После выполнения алгоритма я получаю набор выходных данных. Что означают эти точки данных? Любая ссылка или любая помощь, чтобы сделать его понятным. Спасибо. - Vishal Kaushik; 09.02.2015

comment

Вам потребуется много работы, чтобы понять все это. Начните с документации MLLIB на веб-сайте SPARK. Следуйте руководствам в Интернете, которые вы найдете. - ; 09.02.2015

Апач Спарк | Каковы форматы входных файлов, требуемые spark MLlib для различных алгоритмов статистики?

Ответы (1)

Похожие вопросы