скажем, что у меня есть текстовый файл с именами 1.txt и 2.txt. 1.txt содержит
1,9,5
2,7,4
3,8,3
а 2.txt содержит
1,g,h
2,i,j
3,k,l
Итак, я присоединился к ним по их ключам (первый столбец):
val one = sc.textFile("1.txt").map{
line => val parts = line.split(",",-1)
(parts(0),(parts(1),parts(2)))
}
val one = sc.textFile("2.txt").map{
line => val parts = line.split(",",-1)
(parts(0),(parts(1),parts(2)))
}
Теперь, если я правильно понимаю, я получаю
(1, ( (9,5), (g,h) ))
(2, ( (7,4), (i,j) ))
(3, ( (8,3), (k,l) ))
Теперь предположим, что мне нужно просуммировать все значения второго столбца 1.txt,
Как мне это сделать?
Как мне обратиться ко второму столбцу 2.txt(т. е. g, i, k) в объединенном RDD?
Есть ли хороший учебник по работе с RDD? Я искра (и scala) новичок.