Статьи по теме bigdata

Вопросы по теме 'bigdata'

У меня есть таблица в pg так: CREATE TABLE t ( a BIGSERIAL NOT NULL, -- 8 b b SMALLINT, -- 2 b c SMALLINT, -- 2 b d REAL, -- 4 b e REAL,...

31034 просмотров

30.10.2023

Как вы импортируете общедоступные наборы данных больших данных в AWS?

Загрузка любого из перечисленных общедоступных наборов данных Amazon (http://aws.amazon.com/datasets) потребует много ресурсов и пропускной способности. Как лучше всего импортировать их в AWS, чтобы быстро начать с ними работать?

625 просмотров

amazon-web-services amazon-ec2 amazon-ebs bigdata amazon-simpledb

03.05.2023

В Hadoop, как обрабатывать ежедневно увеличивающиеся данные

В Hadoop, как обрабатывать ежедневно увеличивающиеся данные: Например: 1-й день у меня может быть 1 миллион файлов в какой-то входной папке (например, hadoop/demo) 2-й день в той же папке файлы могут увеличиться с существующего 1 миллиона...

245 просмотров

hadoop bigdata cloudera hadoop-plugins hadoop-streaming

17.10.2022

Scala или Java-аналоги PyTables и numexpr

Я ищу Scala или Java-аналоги numexpr и PyTables (в частности, таблицы.Expr). Это для многоядерных систем аналитики на многоядерных машинах, которым необходимо выполнять матричные операции над данными, не владеющими памятью. В частности, библиотеки...

262 просмотров

java scala bigdata pytables numexpr

21.03.2024

Получение частот ngram для большого набора данных

Я хотел бы сгенерировать частоты ngram для большого набора данных. Википедия, а точнее, WEX от Freebase подходит для моих целей. Какой самый лучший и экономичный способ сделать это на следующий день или около того? Мои мысли: PostgreSQL...

864 просмотров

postgresql hadoop mapreduce bigdata elastic-map-reduce

14.07.2022

Передача больших объемов json по http

У меня есть большие объемы (гигабайты) данных json, которые я хотел бы сделать доступными через спокойный веб-сервис. Потребителем данных будет другая служба, и все это будет происходить на сервере (поэтому браузер не задействован). Есть ли...

2629 просмотров

http javascript json bigdata data-transfer

29.09.2023

Сбой задания импорта Sqoop из-за тайм-аута задачи

Я пытался импортировать таблицу размером 1 ТБ в MySQL в HDFS, используя sqoop. Использовалась команда: sqoop import --connect jdbc:mysql://xx.xx.xxx.xx/MyDB --username myuser --password mypass --table mytable --split-by rowkey -m 14 После...

6523 просмотров

hadoop bigdata sqoop

13.04.2023

R ff пакет ffsave 'zip' не найден

Воспроизводимый пример: library("ff") m <- matrix(1:12, 3, 4, dimnames=list(c("r1","r2","r3"), c("m1","m2","m3","m4"))) v <- 1:3 ffm <- as.ff(m) ffv <- as.ff(v) d <- data.frame(m, v) ffd <- ffdf(ffm, v=ffv,...

2396 просмотров

r bigdata ffbase

08.02.2024

удаление повторяющихся единиц из фрейма данных

Я работаю над большим набором данных с n ковариатами. Многие строки дублируются. Чтобы идентифицировать дубликаты, мне нужно использовать подмножество ковариат для создания идентификационной переменной. То есть (n-x) ковариаты не имеют значения. Я...

1786 просмотров

r duplicates bigdata duplicate-removal

01.04.2022

Ошибка установки менеджера Cloudera на Ubuntu 12.0.4LTS

Я попытался установить последний менеджер cloudera на ubuntu, и когда я устанавливаю cluser в псевдораспределенном режиме, я получаю следующую ошибку, и может ли кто-нибудь посоветовать мне, что делать, я уже пробовал следующее: а) отключить iptables...

2970 просмотров

hadoop bigdata cloudera

04.09.2023

Структура данных Matlab для смешанного типа - что эффективно по времени и пространству?

Мне нужно обработать большие объемы табличных данных смешанного типа — строки и дубли. Стандартная проблема, я бы сказал. Какова наилучшая структура данных в Matlab для работы с этим? Cellarray определенно не ответ. Это крайне неэффективно с...

2991 просмотров

matlab performance bigdata data-structures large-data

31.07.2022

Как ускорить оценку GLM?

Я использую RStudio 0.97.320 (R 2.15.3) на Amazon EC2. В моем фрейме данных 200 тыс. строк и 12 столбцов. Я пытаюсь подобрать логистическую регрессию примерно с 1500 параметрами. R использует 7% ЦП и имеет более 60 ГБ памяти, и все еще занимает...

10236 просмотров

r performance bigdata

22.03.2024

Разве Hadoop больше похож на сетку, чем на кластер?

Я слышал термин «кластер Hadoop», но он, кажется, противоречит моему пониманию «сетки» и «кластера». Мое понимание заключается в том, что сетка – это распределенная система, состоящая из двух и более компьютеров (узлов), которые совместно...

5208 просмотров

hadoop cluster-computing bigdata distributed-computing grid

24.04.2022

Не удается установить библиотеку bigmemory в R 2.15.2 Windows

Я делаю некоторый анализ, который требует, чтобы я вычислил матрицу расстояний (евклидову на данный момент, вероятно, Махаланобиса позже) из массива 7000x182, что приведет к матрице 7000x7000 (при условии, что я также возьму верхнюю часть матрицы)....

1217 просмотров

r bigdata r-bigmemory

15.03.2023

Как можно использовать дату начала для создания запаздывающих дат окончания в R?

Предположим, что есть date.frame или data.table с наблюдениями за миллионами отдельных идентификаторов, так что подмножество выглядит так: id <- c(3,3,3,5,5) data <- c(24,48,60,84,96) start <-...

109 просмотров

r data.table dataframe bigdata

20.04.2023

Как я могу выполнять полные внешние соединения больших наборов данных в R?

Я пытаюсь выполнить анализ данных в R для группы наборов данных среднего размера. Один из анализов, которые мне нужно выполнить, требует, чтобы я выполнил полное внешнее соединение примерно между 24-48 файлами, каждый из которых имеет около 60...

8860 просмотров

r bigdata sqldf outer-join ffbase

06.11.2022

Запись вывода Hadoop MapReduce всего в 2 плоских файла

Итак, у меня есть задание MapReduce, которое принимает несколько новостных статей и выводит следующие пары ключ-значение. . . . <article_id, social_tag.name, social_tag.isCompany, social_tag.code> <article_id2, social_tag2.name,...

946 просмотров

java hadoop hive mapreduce bigdata

02.04.2023

Большая база данных mysql для ips

Часть моего проекта включает в себя хранение и извлечение множества IP-адресов в моей базе данных. Я подсчитал, что моя база данных будет иметь миллионы ips в течение нескольких месяцев после запуска проекта. В этом случае я хотел бы знать,...

128 просмотров

mysql php database ip bigdata

22.04.2024

Дизайн или архитектура базы данных, подходящая для хранения журналов, отчетов в реальном времени и используемая в качестве механизма корреляции журналов

Проблема, с которой я сталкиваюсь, связана с хранением и достаточно быстрым извлечением миллионов журналов. Я работаю над сбором ежедневных журналов из брандмауэров, систем обнаружения и предотвращения вторжений, журналов приложений, активности...

2530 просмотров

logging bigdata reporting database-design correlation

01.02.2022

Свинья - как перебрать мешок карт

Позвольте мне объяснить проблему. У меня есть эта строка кода: u = FOREACH persons GENERATE FLATTEN($0#'experiences') as j; dump u; который производит этот вывод: ([id#1,date_begin#12 2012,description#blabla,date_end#04...

5401 просмотров

hadoop bigdata apache-pig

15.08.2023

Вопросы по теме 'bigdata'

Похожие вопросы