Вопросы по теме 'bigdata'
Расчет и экономия места в PostgreSQL
У меня есть таблица в pg так:
CREATE TABLE t (
a BIGSERIAL NOT NULL, -- 8 b
b SMALLINT, -- 2 b
c SMALLINT, -- 2 b
d REAL, -- 4 b
e REAL,...
31034 просмотров
schedule
30.10.2023
Как вы импортируете общедоступные наборы данных больших данных в AWS?
Загрузка любого из перечисленных общедоступных наборов данных Amazon (http://aws.amazon.com/datasets) потребует много ресурсов и пропускной способности. Как лучше всего импортировать их в AWS, чтобы быстро начать с ними работать?
625 просмотров
schedule
03.05.2023
В Hadoop, как обрабатывать ежедневно увеличивающиеся данные
В Hadoop, как обрабатывать ежедневно увеличивающиеся данные:
Например:
1-й день у меня может быть 1 миллион файлов в какой-то входной папке (например, hadoop/demo)
2-й день в той же папке файлы могут увеличиться с существующего 1 миллиона...
245 просмотров
schedule
17.10.2022
Scala или Java-аналоги PyTables и numexpr
Я ищу Scala или Java-аналоги numexpr и PyTables (в частности, таблицы.Expr). Это для многоядерных систем аналитики на многоядерных машинах, которым необходимо выполнять матричные операции над данными, не владеющими памятью. В частности, библиотеки...
262 просмотров
schedule
21.03.2024
Получение частот ngram для большого набора данных
Я хотел бы сгенерировать частоты ngram для большого набора данных. Википедия, а точнее, WEX от Freebase подходит для моих целей.
Какой самый лучший и экономичный способ сделать это на следующий день или около того?
Мои мысли:
PostgreSQL...
864 просмотров
schedule
14.07.2022
Передача больших объемов json по http
У меня есть большие объемы (гигабайты) данных json, которые я хотел бы сделать доступными через спокойный веб-сервис. Потребителем данных будет другая служба, и все это будет происходить на сервере (поэтому браузер не задействован). Есть ли...
2629 просмотров
schedule
29.09.2023
Сбой задания импорта Sqoop из-за тайм-аута задачи
Я пытался импортировать таблицу размером 1 ТБ в MySQL в HDFS, используя sqoop. Использовалась команда:
sqoop import --connect jdbc:mysql://xx.xx.xxx.xx/MyDB --username myuser --password mypass --table mytable --split-by rowkey -m 14
После...
6523 просмотров
schedule
13.04.2023
R ff пакет ffsave 'zip' не найден
Воспроизводимый пример:
library("ff")
m <- matrix(1:12, 3, 4, dimnames=list(c("r1","r2","r3"), c("m1","m2","m3","m4")))
v <- 1:3
ffm <- as.ff(m)
ffv <- as.ff(v)
d <- data.frame(m, v)
ffd <- ffdf(ffm, v=ffv,...
2396 просмотров
schedule
08.02.2024
удаление повторяющихся единиц из фрейма данных
Я работаю над большим набором данных с n ковариатами. Многие строки дублируются. Чтобы идентифицировать дубликаты, мне нужно использовать подмножество ковариат для создания идентификационной переменной. То есть (n-x) ковариаты не имеют значения. Я...
1786 просмотров
schedule
01.04.2022
Ошибка установки менеджера Cloudera на Ubuntu 12.0.4LTS
Я попытался установить последний менеджер cloudera на ubuntu, и когда я устанавливаю cluser в псевдораспределенном режиме, я получаю следующую ошибку, и может ли кто-нибудь посоветовать мне, что делать, я уже пробовал следующее: а) отключить iptables...
2970 просмотров
schedule
04.09.2023
Структура данных Matlab для смешанного типа - что эффективно по времени и пространству?
Мне нужно обработать большие объемы табличных данных смешанного типа — строки и дубли. Стандартная проблема, я бы сказал. Какова наилучшая структура данных в Matlab для работы с этим?
Cellarray определенно не ответ. Это крайне неэффективно с...
2991 просмотров
schedule
31.07.2022
Как ускорить оценку GLM?
Я использую RStudio 0.97.320 (R 2.15.3) на Amazon EC2. В моем фрейме данных 200 тыс. строк и 12 столбцов.
Я пытаюсь подобрать логистическую регрессию примерно с 1500 параметрами.
R использует 7% ЦП и имеет более 60 ГБ памяти, и все еще занимает...
10236 просмотров
schedule
22.03.2024
Разве Hadoop больше похож на сетку, чем на кластер?
Я слышал термин «кластер Hadoop», но он, кажется, противоречит моему пониманию «сетки» и «кластера».
Мое понимание заключается в том, что сетка – это распределенная система, состоящая из двух и более компьютеров (узлов), которые совместно...
5208 просмотров
schedule
24.04.2022
Не удается установить библиотеку bigmemory в R 2.15.2 Windows
Я делаю некоторый анализ, который требует, чтобы я вычислил матрицу расстояний (евклидову на данный момент, вероятно, Махаланобиса позже) из массива 7000x182, что приведет к матрице 7000x7000 (при условии, что я также возьму верхнюю часть матрицы)....
1217 просмотров
schedule
15.03.2023
Как можно использовать дату начала для создания запаздывающих дат окончания в R?
Предположим, что есть date.frame или data.table с наблюдениями за миллионами отдельных идентификаторов, так что подмножество выглядит так:
id <- c(3,3,3,5,5)
data <- c(24,48,60,84,96)
start <-...
109 просмотров
schedule
20.04.2023
Как я могу выполнять полные внешние соединения больших наборов данных в R?
Я пытаюсь выполнить анализ данных в R для группы наборов данных среднего размера. Один из анализов, которые мне нужно выполнить, требует, чтобы я выполнил полное внешнее соединение примерно между 24-48 файлами, каждый из которых имеет около 60...
8860 просмотров
schedule
06.11.2022
Запись вывода Hadoop MapReduce всего в 2 плоских файла
Итак, у меня есть задание MapReduce, которое принимает несколько новостных статей и выводит следующие пары ключ-значение.
.
.
.
<article_id, social_tag.name, social_tag.isCompany, social_tag.code>
<article_id2, social_tag2.name,...
946 просмотров
schedule
02.04.2023
Большая база данных mysql для ips
Часть моего проекта включает в себя хранение и извлечение множества IP-адресов в моей базе данных. Я подсчитал, что моя база данных будет иметь миллионы ips в течение нескольких месяцев после запуска проекта. В этом случае я хотел бы знать,...
128 просмотров
schedule
22.04.2024
Дизайн или архитектура базы данных, подходящая для хранения журналов, отчетов в реальном времени и используемая в качестве механизма корреляции журналов
Проблема, с которой я сталкиваюсь, связана с хранением и достаточно быстрым извлечением миллионов журналов. Я работаю над сбором ежедневных журналов из брандмауэров, систем обнаружения и предотвращения вторжений, журналов приложений, активности...
2530 просмотров
schedule
01.02.2022
Свинья - как перебрать мешок карт
Позвольте мне объяснить проблему. У меня есть эта строка кода:
u = FOREACH persons GENERATE FLATTEN($0#'experiences') as j;
dump u;
который производит этот вывод:
([id#1,date_begin#12 2012,description#blabla,date_end#04...
5401 просмотров
schedule
15.08.2023