Вопросы по теме 'apache-spark-sql'

Поддерживает ли Spark вставку, перезаписывающую статические разделы?
Я заметил в текущем руководстве Spark Sql, что вставка в динамический раздел не поддерживается: Основные характеристики улья В настоящее время Spark SQL не поддерживает вставку в таблицы с использованием динамического секционирования. Однако...
1595 просмотров

извлекать данные из таблицы куста в искру и выполнять соединение на RDD
У меня есть две таблицы в улье/импале. Я хочу получить данные из таблицы в spark как rdds и выполнить, скажем, операцию соединения. Я не хочу напрямую передавать запрос на соединение в моем контексте куста. Это всего лишь пример. У меня есть...
15621 просмотров
schedule 10.10.2022

Spark SQL — диагностика производительности
Я использую Spark SQL, но некоторые запросы выполняются очень медленно. Я хотел бы знать, как я могу получить некоторое представление о том, почему запросы медленные, чтобы я мог попытаться оптимизировать систему.
147 просмотров
schedule 25.05.2023

Как наиболее эффективно преобразовать строку Scala DataFrame в класс case?
После того, как я получил в Spark некоторый класс Row, Dataframe или Catalyst, я хочу преобразовать его в класс case в моем коде. Это можно сделать, сопоставив someRow match {case Row(a:Long,b:String,c:Double) => myCaseClass(a,b,c)} Но...
62955 просмотров
schedule 14.01.2022

искра от scala 2.10.4 до 2.11
Мне нужно работать с SparkSQL с таблицами шириной более 22 столбцов. Кажется, Scala 2.11 решает проблему. Любая помощь в обновлении и, возможно, рабочих кросс-версиях? Я использую Scala IDE в eclipse, но из-за проблем с SchemaRDD я могу перейти...
780 просмотров

Проблема Apache Spark SQL: java.lang.RuntimeException: [1.517] сбой: ожидается идентификатор
Согласно моему исследованию искры sql, я узнал, что более двух таблиц нельзя объединить напрямую, мы должны использовать подзапрос, чтобы он работал. Итак, я использую подзапрос и могу присоединиться к 3 таблицам: со следующим запросом:...
3085 просмотров
schedule 22.07.2022

Почему Spark запрашивает основной метод, когда я отправляю файл Python?
У меня есть файл sql2.py со следующим содержимым: from __future__ import print_function import os import pyspark.sql import pyspark.sql.types from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql import Row from...
988 просмотров

Объединение двух DataFrames из одного источника
Я использую DataFrame API pyspark (Apache Spark) и сталкиваюсь со следующей проблемой: Когда я присоединяюсь к двум DataFrames, которые происходят из одного и того же исходного DataFrame, результирующий DF превращается в огромное количество строк....
11009 просмотров

Лучший способ преобразовать строковое поле в метку времени в Spark
У меня есть CSV, в котором поле представляет собой дату и время в определенном формате. Я не могу импортировать его прямо в свой Dataframe, потому что это должна быть временная метка. Поэтому я импортирую его как строку и конвертирую в Timestamp ,...
87692 просмотров
schedule 10.02.2024

Как анализировать вложенные объекты JSON в Spark sql?
У меня есть схема, показанная ниже. Как я могу разобрать вложенные объекты root |-- apps: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- appName: string (nullable = true) | | |-- appPackage: string...
51332 просмотров
schedule 27.12.2022

Расчет продолжительности путем вычитания двух столбцов datetime в строковом формате
У меня есть Spark Dataframe, состоящий из серии дат: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd =...
73882 просмотров
schedule 16.01.2024

Как протестировать SQL-запрос Spark без Scala
Я пытаюсь понять, как тестировать SQL-запросы Spark к базе данных Cassandra — примерно так же, как в SQL Server Management Studio. В настоящее время мне приходится открывать консоль Spark и вводить команды Scala, что действительно утомительно и...
2062 просмотров

Как настроить кассандру и искру
Моя цель - запустить Spark worker на том же узле Cassandra, а также иметь отдельный узел для мастера Spark. Прямо сейчас пробую Datastax. Во время установки Cassandra datastax я могу выбрать 3 разных типа узлов - Cassandra, Search и Analytics....
836 просмотров

Для чего нужен метастор в Spark?
Я использую SparkSQL в Python. Я создал многораздельную таблицу (~ несколько сотен разделов), сохранив ее во внутренней таблице Hive, используя hiveContext. Склад-улей находится в S3. Когда я просто выполняю "df = hiveContext.table (" mytable ")....
2588 просмотров

объединить несколько небольших файлов в несколько файлов большего размера в Spark
Я использовал hive через Spark. В моем искровом коде есть запрос "Вставить в секционированную таблицу". Входные данные в 200+ гб. Когда Spark записывает в многораздельную таблицу, он выдает очень маленькие файлы (файлы размером в КБ). Итак, теперь...
16867 просмотров

apache zeppelin запущен, но есть ошибка подключения в localhost:8080
после успешной сборки apache zepellin на Ubuntu 14 я запускаю zeppelin, и он говорит, что он успешно запущен, но когда я перехожу на localhost: 8080, Firefox показывает невозможность подключения, как будто он не запускался, но когда я проверяю статус...
18449 просмотров

Медленное извлечение данных из базы данных Spark Cache VS
Мы представили Spark Cache для управления данными в памяти в нашем продукте, потому что агрессивная работа с удаленными базами данных, где размер данных Огромен (БОЛЬШИЕ ДАННЫЕ), занимала слишком много времени. Прямо сейчас мы заметили, что после...
785 просмотров
schedule 21.05.2022

Spark задает несколько условий столбца для соединения фрейма данных
Как задать больше условий столбца при объединении двух фреймов данных. Например, я хочу запустить следующее: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ==...
119915 просмотров
schedule 23.10.2022

Вставка Spark SQL в выбранную проблему
INSERT INTO hive_table SELECT b.id,a.id FROM hive_table_1 a,hive_table_2 b WHERE a.id BETWEEN b.id1 AND b.id2; выполнить такой SQL на spark-sql получил ошибки: ОШИБКА CliDriver: org.apache.spark.sql.AnalysisException: отсутствует...
3258 просмотров
schedule 05.02.2022

spark-sql (hive@spark и hive@hadoop) умирает с исключениями
Spark-SQL умирает со следующими исключениями: Lost task 13.0 in stage 1.0 (TID 14, 10.15.0.224): java.io.InvalidClassException: org.apache.spark.sql.catalyst.expressions.AttributeMap; local class incompatible: stream classdesc serialVersionUID =...
935 просмотров