Я использую Spark sql для выполнения запроса по моему набору данных. Результат запроса довольно мал, но все же разделен.
Я хотел бы объединить полученный DataFrame и упорядочить строки по столбцу. Я пытался
DataFrame result = sparkSQLContext.sql("my sql").coalesce(1).orderBy("col1")
result.toJSON().saveAsTextFile("output")
Я тоже пробовал
DataFrame result = sparkSQLContext.sql("my sql").repartition(1).orderBy("col1")
result.toJSON().saveAsTextFile("output")
выходной файл упорядочен по частям (т.е. разделы упорядочены, но фрейм данных не упорядочен в целом). Например, вместо
1, value
2, value
4, value
4, value
5, value
5, value
...
я получил
2, value
4, value
5, value
-----------> partition boundary
1, value
4, value
5, value
- Как правильно получить абсолютный порядок результатов моего запроса?
- Почему фрейм данных не объединяется в один раздел?
count
какresult = result.coalesce(1); result.count(); result.orderBy("col1")
... - person fo_x86   schedule 04.08.2015