Статьи по теме apache-spark-sql

Вопросы по теме 'apache-spark-sql'

Поддерживает ли Spark вставку, перезаписывающую статические разделы?

Я заметил в текущем руководстве Spark Sql, что вставка в динамический раздел не поддерживается: Основные характеристики улья В настоящее время Spark SQL не поддерживает вставку в таблицы с использованием динамического секционирования. Однако...

1595 просмотров

apache-spark apache-spark-sql shark-sql

26.12.2022

извлекать данные из таблицы куста в искру и выполнять соединение на RDD

У меня есть две таблицы в улье/импале. Я хочу получить данные из таблицы в spark как rdds и выполнить, скажем, операцию соединения. Я не хочу напрямую передавать запрос на соединение в моем контексте куста. Это всего лишь пример. У меня есть...

15621 просмотров

apache-spark apache-spark-sql scala rdd

10.10.2022

Spark SQL — диагностика производительности

Я использую Spark SQL, но некоторые запросы выполняются очень медленно. Я хотел бы знать, как я могу получить некоторое представление о том, почему запросы медленные, чтобы я мог попытаться оптимизировать систему.

147 просмотров

apache-spark-sql

25.05.2023

Как наиболее эффективно преобразовать строку Scala DataFrame в класс case?

После того, как я получил в Spark некоторый класс Row, Dataframe или Catalyst, я хочу преобразовать его в класс case в моем коде. Это можно сделать, сопоставив someRow match {case Row(a:Long,b:String,c:Double) => myCaseClass(a,b,c)} Но...

62955 просмотров

apache-spark apache-spark-sql scala

14.01.2022

искра от scala 2.10.4 до 2.11

Мне нужно работать с SparkSQL с таблицами шириной более 22 столбцов. Кажется, Scala 2.11 решает проблему. Любая помощь в обновлении и, возможно, рабочих кросс-версиях? Я использую Scala IDE в eclipse, но из-за проблем с SchemaRDD я могу перейти...

780 просмотров

apache-spark apache-spark-sql scala eclipse-plugin

08.09.2022

Проблема Apache Spark SQL: java.lang.RuntimeException: [1.517] сбой: ожидается идентификатор

Согласно моему исследованию искры sql, я узнал, что более двух таблиц нельзя объединить напрямую, мы должны использовать подзапрос, чтобы он работал. Итак, я использую подзапрос и могу присоединиться к 3 таблицам: со следующим запросом:...

3085 просмотров

apache-spark apache-spark-sql join

22.07.2022

Почему Spark запрашивает основной метод, когда я отправляю файл Python?

У меня есть файл sql2.py со следующим содержимым: from __future__ import print_function import os import pyspark.sql import pyspark.sql.types from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.sql import Row from...

988 просмотров

python apache-spark pyspark apache-spark-sql

28.06.2023

Объединение двух DataFrames из одного источника

Я использую DataFrame API pyspark (Apache Spark) и сталкиваюсь со следующей проблемой: Когда я присоединяюсь к двум DataFrames, которые происходят из одного и того же исходного DataFrame, результирующий DF превращается в огромное количество строк....

11009 просмотров

python apache-spark pyspark apache-spark-sql

10.07.2023

Лучший способ преобразовать строковое поле в метку времени в Spark

У меня есть CSV, в котором поле представляет собой дату и время в определенном формате. Я не могу импортировать его прямо в свой Dataframe, потому что это должна быть временная метка. Поэтому я импортирую его как строку и конвертирую в Timestamp ,...

87692 просмотров

apache-spark apache-spark-sql scala

10.02.2024

Как анализировать вложенные объекты JSON в Spark sql?

У меня есть схема, показанная ниже. Как я могу разобрать вложенные объекты root |-- apps: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- appName: string (nullable = true) | | |-- appPackage: string...

51332 просмотров

json apache-spark apache-spark-sql

27.12.2022

Расчет продолжительности путем вычитания двух столбцов datetime в строковом формате

У меня есть Spark Dataframe, состоящий из серии дат: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd =...

73882 просмотров

apache-spark pyspark apache-spark-sql

16.01.2024

Как протестировать SQL-запрос Spark без Scala

Я пытаюсь понять, как тестировать SQL-запросы Spark к базе данных Cassandra — примерно так же, как в SQL Server Management Studio. В настоящее время мне приходится открывать консоль Spark и вводить команды Scala, что действительно утомительно и...

2062 просмотров

cassandra apache-spark apache-spark-sql scala datastax-enterprise

20.01.2024

Как настроить кассандру и искру

Моя цель - запустить Spark worker на том же узле Cassandra, а также иметь отдельный узел для мастера Spark. Прямо сейчас пробую Datastax. Во время установки Cassandra datastax я могу выбрать 3 разных типа узлов - Cassandra, Search и Analytics....

836 просмотров

cassandra apache-spark apache-spark-sql datastax

15.12.2023

Для чего нужен метастор в Spark?

Я использую SparkSQL в Python. Я создал многораздельную таблицу (~ несколько сотен разделов), сохранив ее во внутренней таблице Hive, используя hiveContext. Склад-улей находится в S3. Когда я просто выполняю "df = hiveContext.table (" mytable ")....

2588 просмотров

apache-spark apache-spark-sql hive metastore

10.09.2022

объединить несколько небольших файлов в несколько файлов большего размера в Spark

Я использовал hive через Spark. В моем искровом коде есть запрос "Вставить в секционированную таблицу". Входные данные в 200+ гб. Когда Spark записывает в многораздельную таблицу, он выдает очень маленькие файлы (файлы размером в КБ). Итак, теперь...

16867 просмотров

apache-spark hadoop apache-spark-sql scala hive

11.03.2022

apache zeppelin запущен, но есть ошибка подключения в localhost:8080

после успешной сборки apache zepellin на Ubuntu 14 я запускаю zeppelin, и он говорит, что он успешно запущен, но когда я перехожу на localhost: 8080, Firefox показывает невозможность подключения, как будто он не запускался, но когда я проверяю статус...

18449 просмотров

apache-spark apache-spark-sql apache-zeppelin

09.06.2024

Медленное извлечение данных из базы данных Spark Cache VS

Мы представили Spark Cache для управления данными в памяти в нашем продукте, потому что агрессивная работа с удаленными базами данных, где размер данных Огромен (БОЛЬШИЕ ДАННЫЕ), занимала слишком много времени. Прямо сейчас мы заметили, что после...

785 просмотров

java apache-spark apache-spark-sql

21.05.2022

Spark задает несколько условий столбца для соединения фрейма данных

Как задать больше условий столбца при объединении двух фреймов данных. Например, я хочу запустить следующее: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ==...

119915 просмотров

apache-spark apache-spark-sql rdd

23.10.2022

Вставка Spark SQL в выбранную проблему

INSERT INTO hive_table SELECT b.id,a.id FROM hive_table_1 a,hive_table_2 b WHERE a.id BETWEEN b.id1 AND b.id2; выполнить такой SQL на spark-sql получил ошибки: ОШИБКА CliDriver: org.apache.spark.sql.AnalysisException: отсутствует...

3258 просмотров

apache-spark apache-spark-sql hive

05.02.2022

spark-sql (hive@spark и hive@hadoop) умирает с исключениями

Spark-SQL умирает со следующими исключениями: Lost task 13.0 in stage 1.0 (TID 14, 10.15.0.224): java.io.InvalidClassException: org.apache.spark.sql.catalyst.expressions.AttributeMap; local class incompatible: stream classdesc serialVersionUID =...

935 просмотров

apache-spark hadoop apache-spark-sql hive

04.05.2024

Вопросы по теме 'apache-spark-sql'

Похожие вопросы