Вопросы по теме 'pyarrow'

Написание паркетных файлов из Python без панд
Мне нужно преобразовать данные из JSON в паркет как часть конвейера ETL. В настоящее время я делаю это с помощью метода from_pandas pyarrow.Table . Однако сначала создание фрейма данных кажется ненужным шагом, к тому же я бы хотел избежать...
2905 просмотров
schedule 14.10.2023

использование статистики паркетных файлов без чтения файлов
Насколько я понимаю, паркетные файлы имеют минимальную / максимальную статистику для столбцов. мой вопрос в том, как читать эту статистику с помощью python, не читая весь файл? Если поможет, у меня также есть файлы _common_metadata и _metadata...
1032 просмотров
schedule 09.03.2024

Переразбиение сгенерированных паркетов parquet-mr с помощью pyarrow / parquet-cpp увеличивает размер файла в 30 раз?
Используя AWS Firehose, конвертирую входящие записи в паркет. В одном примере у меня есть 150 тысяч идентичных записей, поступающих в пожарный шланг, и один паркет размером 30 килобайт записывается в s3. Из-за того, как firehose разделяет данные, у...
242 просмотров

Комплект штанов переводчика для Pyarrow
Я использую Pants для создания файла .pex для своего проекта. Мой файл сборки имеет зависимость от pyarrow с использованием сторонней логики: «3rdparty/python: pyarrow». Pants собирает pyarrow с использованием библиотек C++ и Python, у меня pyarrow...
100 просмотров
schedule 23.09.2022

Как установить стрелку для R для доступа к HDFS
Я хочу получить доступ к файлам паркета в HDFS и использовать библиотеку arrow . Однако мне нужно знать, какие еще зависимости необходимо установить на стороне клиента? Например, на следующей странице объясняется, какие зависимости необходимы для...
113 просмотров
schedule 29.07.2023

pyarrow.lib.ArrowIOError: недопустимый размер файла Parquet — 0 байт
Я пытаюсь сделать что-то вроде этого , читая список файлов из корзины S3 в таблицу pyarrow. Если я укажу имя файла, я могу сделать: from pyarrow.parquet import ParquetDataset import s3fs dataset = ParquetDataset(...
4257 просмотров
schedule 03.06.2022

Как сохранить DataFrame pandas с пользовательскими типами с помощью pyarrow и parquet
Я хочу сохранить DataFrame pandas на паркет, но у меня есть некоторые неподдерживаемые типы (например, bson ObjectIds). В примерах мы используем: import pandas as pd import pyarrow as pa Вот минимальный пример, показывающий ситуацию:...
1335 просмотров
schedule 15.11.2023

фильтрация набора данных pyarrow с несколькими условиями
У меня есть разделенный набор данных паркета, который я пытаюсь прочитать в фреймворке pandas. Полный набор данных паркета не помещается в память, поэтому мне нужно выбрать только некоторые разделы (столбцы раздела - Год, Месяц и Дата. У меня есть...
645 просмотров
schedule 03.09.2023

Извлечение имени столбца и типа данных из файла паркета с помощью python
У меня есть сотни файлов паркета, я хочу получить имя столбца и связанный с ним тип данных в список в Python. Я знаю, что могу получить схему, она представлена ​​в таком формате: COL_1: string -- field metadata -- PARQUET:field_id: '34'...
593 просмотров
schedule 11.04.2023

получение OSError: передан нефайловый путь с использованием pyarrow ParquetDataset
Мне нужно запустить несколько тестов в разных средах. В тестах я должен проверить некоторые каталоги в s3, чтобы найти файлы паркета и перенести их в словарь, как это import pyarrow.parquet as pq import s3fs env = 'dev' aws_profile ={'dev':...
1306 просмотров
schedule 02.08.2022

Как преобразовать фрейм данных Pandas в таблицу PyArrow с типом объединения в схеме?
У меня есть фреймворк Pandas со столбцом, содержащим список dict / структур. Один из ключей ( thing в примере ниже) может иметь значение, которое является либо int, либо строкой. Есть ли способ определить тип PyArrow, который позволит преобразовать...
866 просмотров
schedule 03.05.2022

Колонны для Структурирования паркета Пирроу и (или) Пандой в Python
Я надеюсь, что некоторые из вас найдут немного времени, чтобы помочь новичку вроде меня. Я работаю над этой задачей всю неделю и не могу найти решения. Я понимаю и полностью согласен с тем, что мне нужно изучить каждый используемый мной пакет и их...
425 просмотров
schedule 08.11.2022

обработка больших временных меток при преобразовании из pyarrow.Table в pandas
У меня есть метка времени 9999-12-31 23:59:59 , хранящаяся в файле паркета как int96. Я прочитал этот паркетный файл с помощью pyarrow.dataset и преобразовал полученную таблицу в фрейм данных pandas (используя pyarrow.Table.to_pandas ())....
203 просмотров
schedule 04.06.2024

Ошибка импорта pyarrow в блокнот jupyter после установки pyarrow в pip
У меня возникла проблема с импортом pyarrow в блокнот Jupyter. Чтобы дать некоторый контекст, я создал виртуальную среду с именем rc_env. Я удалял и переустанавливал pyarrow несколько раз, но это сообщение, которое я получил, когда недавно...
120 просмотров
schedule 05.02.2024