Апач Спарк | Каковы форматы входных файлов, требуемые spark MLlib для различных алгоритмов статистики?

Я новичок в Apacha Spark и MLlib. У меня есть четкое представление об использовании библиотеки (MLlib), кроме одной вещи. Я не понимаю, как мне подготовить файл входных данных для различных алгоритмов. Пожалуйста помоги. Спасибо.


person Vishal Kaushik    schedule 05.02.2015    source источник


Ответы (1)


Если вы посмотрите на примеры, представленные на странице MLlib, вы сможете найти пример, который подробно описывает создание входных данных. Чтобы предоставить указатель, предположим, что у вас есть текстовый CSV-файл в хранилище, в котором последняя строка является меткой. Затем следующий код создаст для вас помеченную точку RDD, которую можно отправить в алгоритмы MLlib.

val inputData = trainTextData.map { lines =>
      val parts = lines.split(",")
      LabeledPoint(parts(index).toDouble, Vectors.dense(remove(parts,index).map(x => if(x=="NULL") (0.0).toDouble else x.toDouble).toArray))
    }.cache

Таким же образом вы можете написать свои карты для создания данных из вашего ввода. Однако это будет сильно зависеть от ваших данных.

person Community    schedule 05.02.2015
comment
На данный момент у нас есть набор входных данных, мы запускаем заданные строки программы в примерах и получаем некоторый результат. Под этим упражнением я не понимаю логического функционирования на данном входе. Доступна ли какая-либо надлежащая документация для алгоритмов MLlib, например, что эти вызовы функций означают технически, какие заполнители и метки используются в формате, который мы используем для алгоритма? После выполнения алгоритма я получаю набор выходных данных. Что означают эти точки данных? Любая ссылка или любая помощь, чтобы сделать его понятным. Спасибо. - person Vishal Kaushik; 09.02.2015
comment
Вам потребуется много работы, чтобы понять все это. Начните с документации MLLIB на веб-сайте SPARK. Следуйте руководствам в Интернете, которые вы найдете. - person ; 09.02.2015