Вопросы по теме 'bigdata'

Расчет и экономия места в PostgreSQL
У меня есть таблица в pg так: CREATE TABLE t ( a BIGSERIAL NOT NULL, -- 8 b b SMALLINT, -- 2 b c SMALLINT, -- 2 b d REAL, -- 4 b e REAL,...
31034 просмотров

Как вы импортируете общедоступные наборы данных больших данных в AWS?
Загрузка любого из перечисленных общедоступных наборов данных Amazon (http://aws.amazon.com/datasets) потребует много ресурсов и пропускной способности. Как лучше всего импортировать их в AWS, чтобы быстро начать с ними работать?
625 просмотров

В Hadoop, как обрабатывать ежедневно увеличивающиеся данные
В Hadoop, как обрабатывать ежедневно увеличивающиеся данные: Например: 1-й день у меня может быть 1 миллион файлов в какой-то входной папке (например, hadoop/demo) 2-й день в той же папке файлы могут увеличиться с существующего 1 миллиона...
245 просмотров

Scala или Java-аналоги PyTables и numexpr
Я ищу Scala или Java-аналоги numexpr и PyTables (в частности, таблицы.Expr). Это для многоядерных систем аналитики на многоядерных машинах, которым необходимо выполнять матричные операции над данными, не владеющими памятью. В частности, библиотеки...
262 просмотров
schedule 21.03.2024

Получение частот ngram для большого набора данных
Я хотел бы сгенерировать частоты ngram для большого набора данных. Википедия, а точнее, WEX от Freebase подходит для моих целей. Какой самый лучший и экономичный способ сделать это на следующий день или около того? Мои мысли: PostgreSQL...
864 просмотров

Передача больших объемов json по http
У меня есть большие объемы (гигабайты) данных json, которые я хотел бы сделать доступными через спокойный веб-сервис. Потребителем данных будет другая служба, и все это будет происходить на сервере (поэтому браузер не задействован). Есть ли...
2629 просмотров
schedule 29.09.2023

Сбой задания импорта Sqoop из-за тайм-аута задачи
Я пытался импортировать таблицу размером 1 ТБ в MySQL в HDFS, используя sqoop. Использовалась команда: sqoop import --connect jdbc:mysql://xx.xx.xxx.xx/MyDB --username myuser --password mypass --table mytable --split-by rowkey -m 14 После...
6523 просмотров
schedule 13.04.2023

R ff пакет ffsave 'zip' не найден
Воспроизводимый пример: library("ff") m <- matrix(1:12, 3, 4, dimnames=list(c("r1","r2","r3"), c("m1","m2","m3","m4"))) v <- 1:3 ffm <- as.ff(m) ffv <- as.ff(v) d <- data.frame(m, v) ffd <- ffdf(ffm, v=ffv,...
2396 просмотров
schedule 08.02.2024

удаление повторяющихся единиц из фрейма данных
Я работаю над большим набором данных с n ковариатами. Многие строки дублируются. Чтобы идентифицировать дубликаты, мне нужно использовать подмножество ковариат для создания идентификационной переменной. То есть (n-x) ковариаты не имеют значения. Я...
1786 просмотров
schedule 01.04.2022

Ошибка установки менеджера Cloudera на Ubuntu 12.0.4LTS
Я попытался установить последний менеджер cloudera на ubuntu, и когда я устанавливаю cluser в псевдораспределенном режиме, я получаю следующую ошибку, и может ли кто-нибудь посоветовать мне, что делать, я уже пробовал следующее: а) отключить iptables...
2970 просмотров
schedule 04.09.2023

Структура данных Matlab для смешанного типа - что эффективно по времени и пространству?
Мне нужно обработать большие объемы табличных данных смешанного типа — строки и дубли. Стандартная проблема, я бы сказал. Какова наилучшая структура данных в Matlab для работы с этим? Cellarray определенно не ответ. Это крайне неэффективно с...
2991 просмотров

Как ускорить оценку GLM?
Я использую RStudio 0.97.320 (R 2.15.3) на Amazon EC2. В моем фрейме данных 200 тыс. строк и 12 столбцов. Я пытаюсь подобрать логистическую регрессию примерно с 1500 параметрами. R использует 7% ЦП и имеет более 60 ГБ памяти, и все еще занимает...
10236 просмотров
schedule 22.03.2024

Разве Hadoop больше похож на сетку, чем на кластер?
Я слышал термин «кластер Hadoop», но он, кажется, противоречит моему пониманию «сетки» и «кластера». Мое понимание заключается в том, что сетка  – это распределенная система, состоящая из двух и более компьютеров (узлов), которые совместно...
5208 просмотров

Не удается установить библиотеку bigmemory в R 2.15.2 Windows
Я делаю некоторый анализ, который требует, чтобы я вычислил матрицу расстояний (евклидову на данный момент, вероятно, Махаланобиса позже) из массива 7000x182, что приведет к матрице 7000x7000 (при условии, что я также возьму верхнюю часть матрицы)....
1217 просмотров
schedule 15.03.2023

Как можно использовать дату начала для создания запаздывающих дат окончания в R?
Предположим, что есть date.frame или data.table с наблюдениями за миллионами отдельных идентификаторов, так что подмножество выглядит так: id <- c(3,3,3,5,5) data <- c(24,48,60,84,96) start <-...
109 просмотров
schedule 20.04.2023

Как я могу выполнять полные внешние соединения больших наборов данных в R?
Я пытаюсь выполнить анализ данных в R для группы наборов данных среднего размера. Один из анализов, которые мне нужно выполнить, требует, чтобы я выполнил полное внешнее соединение примерно между 24-48 файлами, каждый из которых имеет около 60...
8860 просмотров
schedule 06.11.2022

Запись вывода Hadoop MapReduce всего в 2 плоских файла
Итак, у меня есть задание MapReduce, которое принимает несколько новостных статей и выводит следующие пары ключ-значение. . . . <article_id, social_tag.name, social_tag.isCompany, social_tag.code> <article_id2, social_tag2.name,...
946 просмотров
schedule 02.04.2023

Большая база данных mysql для ips
Часть моего проекта включает в себя хранение и извлечение множества IP-адресов в моей базе данных. Я подсчитал, что моя база данных будет иметь миллионы ips в течение нескольких месяцев после запуска проекта. В этом случае я хотел бы знать,...
128 просмотров
schedule 22.04.2024

Дизайн или архитектура базы данных, подходящая для хранения журналов, отчетов в реальном времени и используемая в качестве механизма корреляции журналов
Проблема, с которой я сталкиваюсь, связана с хранением и достаточно быстрым извлечением миллионов журналов. Я работаю над сбором ежедневных журналов из брандмауэров, систем обнаружения и предотвращения вторжений, журналов приложений, активности...
2530 просмотров

Свинья - как перебрать мешок карт
Позвольте мне объяснить проблему. У меня есть эта строка кода: u = FOREACH persons GENERATE FLATTEN($0#'experiences') as j; dump u; который производит этот вывод: ([id#1,date_begin#12 2012,description#blabla,date_end#04...
5401 просмотров
schedule 15.08.2023