Вопросы по теме 'apache-spark-sql'
Поддерживает ли Spark вставку, перезаписывающую статические разделы?
Я заметил в текущем руководстве Spark Sql, что вставка в динамический раздел не поддерживается:
Основные характеристики улья
В настоящее время Spark SQL не поддерживает вставку в таблицы с использованием динамического секционирования.
Однако...
1595 просмотров
schedule
26.12.2022
извлекать данные из таблицы куста в искру и выполнять соединение на RDD
У меня есть две таблицы в улье/импале. Я хочу получить данные из таблицы в spark как rdds и выполнить, скажем, операцию соединения.
Я не хочу напрямую передавать запрос на соединение в моем контексте куста. Это всего лишь пример. У меня есть...
15621 просмотров
schedule
10.10.2022
Spark SQL — диагностика производительности
Я использую Spark SQL, но некоторые запросы выполняются очень медленно. Я хотел бы знать, как я могу получить некоторое представление о том, почему запросы медленные, чтобы я мог попытаться оптимизировать систему.
147 просмотров
schedule
25.05.2023
Как наиболее эффективно преобразовать строку Scala DataFrame в класс case?
После того, как я получил в Spark некоторый класс Row, Dataframe или Catalyst, я хочу преобразовать его в класс case в моем коде. Это можно сделать, сопоставив
someRow match {case Row(a:Long,b:String,c:Double) => myCaseClass(a,b,c)}
Но...
62955 просмотров
schedule
14.01.2022
искра от scala 2.10.4 до 2.11
Мне нужно работать с SparkSQL с таблицами шириной более 22 столбцов.
Кажется, Scala 2.11 решает проблему.
Любая помощь в обновлении и, возможно, рабочих кросс-версиях? Я использую Scala IDE в eclipse, но из-за проблем с SchemaRDD я могу перейти...
780 просмотров
schedule
08.09.2022
Проблема Apache Spark SQL: java.lang.RuntimeException: [1.517] сбой: ожидается идентификатор
Согласно моему исследованию искры sql, я узнал, что более двух таблиц нельзя объединить напрямую, мы должны использовать подзапрос, чтобы он работал. Итак, я использую подзапрос и могу присоединиться к 3 таблицам:
со следующим запросом:...
3085 просмотров
schedule
22.07.2022
Почему Spark запрашивает основной метод, когда я отправляю файл Python?
У меня есть файл sql2.py со следующим содержимым:
from __future__ import print_function
import os
import pyspark.sql
import pyspark.sql.types
from pyspark import SparkContext
from pyspark.sql import SQLContext
from pyspark.sql import Row
from...
988 просмотров
schedule
28.06.2023
Объединение двух DataFrames из одного источника
Я использую DataFrame API pyspark (Apache Spark) и сталкиваюсь со следующей проблемой:
Когда я присоединяюсь к двум DataFrames, которые происходят из одного и того же исходного DataFrame, результирующий DF превращается в огромное количество строк....
11009 просмотров
schedule
10.07.2023
Лучший способ преобразовать строковое поле в метку времени в Spark
У меня есть CSV, в котором поле представляет собой дату и время в определенном формате. Я не могу импортировать его прямо в свой Dataframe, потому что это должна быть временная метка. Поэтому я импортирую его как строку и конвертирую в Timestamp ,...
87692 просмотров
schedule
10.02.2024
Как анализировать вложенные объекты JSON в Spark sql?
У меня есть схема, показанная ниже. Как я могу разобрать вложенные объекты
root
|-- apps: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- appName: string (nullable = true)
| | |-- appPackage: string...
51332 просмотров
schedule
27.12.2022
Расчет продолжительности путем вычитания двух столбцов datetime в строковом формате
У меня есть Spark Dataframe, состоящий из серии дат:
from pyspark.sql import SQLContext
from pyspark.sql import Row
from pyspark.sql.types import *
sqlContext = SQLContext(sc)
import pandas as pd
rdd =...
73882 просмотров
schedule
16.01.2024
Как протестировать SQL-запрос Spark без Scala
Я пытаюсь понять, как тестировать SQL-запросы Spark к базе данных Cassandra — примерно так же, как в SQL Server Management Studio. В настоящее время мне приходится открывать консоль Spark и вводить команды Scala, что действительно утомительно и...
2062 просмотров
schedule
20.01.2024
Как настроить кассандру и искру
Моя цель - запустить Spark worker на том же узле Cassandra, а также иметь отдельный узел для мастера Spark.
Прямо сейчас пробую Datastax. Во время установки Cassandra datastax я могу выбрать 3 разных типа узлов - Cassandra, Search и Analytics....
836 просмотров
schedule
15.12.2023
Для чего нужен метастор в Spark?
Я использую SparkSQL в Python. Я создал многораздельную таблицу (~ несколько сотен разделов), сохранив ее во внутренней таблице Hive, используя hiveContext. Склад-улей находится в S3.
Когда я просто выполняю "df = hiveContext.table (" mytable ")....
2588 просмотров
schedule
10.09.2022
объединить несколько небольших файлов в несколько файлов большего размера в Spark
Я использовал hive через Spark. В моем искровом коде есть запрос "Вставить в секционированную таблицу". Входные данные в 200+ гб. Когда Spark записывает в многораздельную таблицу, он выдает очень маленькие файлы (файлы размером в КБ). Итак, теперь...
16867 просмотров
schedule
11.03.2022
apache zeppelin запущен, но есть ошибка подключения в localhost:8080
после успешной сборки apache zepellin на Ubuntu 14 я запускаю zeppelin, и он говорит, что он успешно запущен, но когда я перехожу на localhost: 8080, Firefox показывает невозможность подключения, как будто он не запускался, но когда я проверяю статус...
18449 просмотров
schedule
09.06.2024
Медленное извлечение данных из базы данных Spark Cache VS
Мы представили Spark Cache для управления данными в памяти в нашем продукте, потому что агрессивная работа с удаленными базами данных, где размер данных Огромен (БОЛЬШИЕ ДАННЫЕ), занимала слишком много времени.
Прямо сейчас мы заметили, что после...
785 просмотров
schedule
21.05.2022
Spark задает несколько условий столбца для соединения фрейма данных
Как задать больше условий столбца при объединении двух фреймов данных. Например, я хочу запустить следующее:
val Lead_all = Leads.join(Utm_Master,
Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ==...
119915 просмотров
schedule
23.10.2022
Вставка Spark SQL в выбранную проблему
INSERT INTO hive_table SELECT b.id,a.id FROM hive_table_1 a,hive_table_2 b WHERE a.id BETWEEN b.id1 AND b.id2;
выполнить такой SQL на spark-sql получил ошибки:
ОШИБКА CliDriver: org.apache.spark.sql.AnalysisException: отсутствует...
3258 просмотров
schedule
05.02.2022
spark-sql (hive@spark и hive@hadoop) умирает с исключениями
Spark-SQL умирает со следующими исключениями:
Lost task 13.0 in stage 1.0 (TID 14, 10.15.0.224): java.io.InvalidClassException: org.apache.spark.sql.catalyst.expressions.AttributeMap; local class incompatible: stream classdesc serialVersionUID =...
935 просмотров
schedule
04.05.2024