Вопросы по теме 'large-data-volumes'

Стратегии записи расширяемых упорядоченных файлов на диск
Я аспирант кафедры ядерной физики, сейчас работаю над программой анализа данных. Данные состоят из миллиардов многомерных точек. В любом случае я использую кривые заполнения пространства для сопоставления нескольких измерений с одним измерением, и...
118 просмотров

Чтение из одного большого файла и запись во многие (десятки, сотни или тысячи) файлов в Java?
У меня есть большой файл (сжатый 4-5 ГБ) небольших сообщений, которые я хочу разобрать примерно на 6000 файлов по типу сообщения. Сообщения маленькие; от 5 до 50 байт в зависимости от типа. Каждое сообщение начинается с поля типа фиксированного...
1626 просмотров
schedule 29.11.2023

что меняется, когда ваш ввод имеет размер гига/терабайта?
Я только сегодня сделал свой первый шаг в настоящие научные вычисления, когда мне показали набор данных, где самый маленький файл — это 48000 полей на 1600 строк (гаплотипы для нескольких человек, для хромосомы 22). И это считается крошечным. Я...
1806 просмотров

psycopg2 COPY с использованием cursor.copy_from () зависает с большими входами
Рассмотрим следующий код на Python, использующий объект psycopg2 cursor (некоторые имена столбцов были изменены или опущены для ясности): filename='data.csv' file_columns=('id', 'node_id', 'segment_id', 'elevated',...
6529 просмотров

PHP cURL «Неустранимая ошибка: допустимый размер памяти» для больших наборов данных
Я знаю про вариант установки внутренней памяти ini_set("memory_limit","30M"); Но я хотел знать, есть ли лучший подход для запроса данных? У меня есть WHILE LOOP, который проверяет, нужно ли мне запрашивать еще 1000 записей. используя...
3886 просмотров
schedule 22.08.2022

Обработка больших объемов данных с использованием многопоточности
Мне нужно написать службу С# (это может быть служба Windows или консольное приложение), которая должна обрабатывать большие объемы данных (100 000 записей), хранящихся в базе данных. Обработка каждой записи также является достаточно сложной...
1588 просмотров

Соответствующая структура данных для более быстрого процесса поиска (размер данных: около 200 000 строковых значений)
У меня есть большой набор данных около 200 000 значений, все они являются строками. Какую структуру данных я должен использовать, чтобы процесс поиска и извлечения был быстрым. Вставка выполняется один раз, поэтому даже если вставка будет медленной,...
577 просмотров
schedule 09.07.2023

большой файл через службу WCF
Подобные вопросы текут вокруг, и я рассмотрел их все. Похоже, никто не решает мою проблему. -- ОБНОВЛЕНИЕ: -- Я пытаюсь загрузить документ (pdf, doc или что-то еще) в базу данных с помощью службы WCF. Звонок в сервис выглядит так:...
2382 просмотров
schedule 11.11.2022

Медленный SELECT COUNT(*), информационная_схема, поле кардинальности
У меня есть большая (60+ миллионов записей) таблица. Эта таблица имеет первичный ключ (id, auto_increment, index id) У меня есть отчет, который выбирает записи из этой таблицы. А для просмотра и навигации по этому отчету (написанному на PHP) я...
617 просмотров

Структура полнотекстовой таблицы MySQL
У меня есть база данных с более чем 60 миллионами записей. Текущая настройка состоит из 1 таблицы с 30+ миллионами и парой небольших таблиц с 5 миллионами в каждой. Структура данных одинакова для каждой таблицы. Человек, который создал наш поиск в...
189 просмотров

Таблица SQL со многими конкретными датами. Как мне сделать это более масштабируемым?
У меня довольно хлопотная таблица, которая выглядит так: EventTimeLog Id (bigint) | Time (datetime) | LogId (FK to Log tables Id column) В этой таблице указано, сколько раз произошло событие журнала. Таким образом, можно записать только...
50 просмотров
schedule 08.02.2022

Чтение десятков тысяч файлов и запись в миллионы файлов на Java
Я делаю некоторые необычные манипуляции с данными. У меня есть 36 000 входных файлов. Одновременно в память может быть загружено больше. Я хочу взять первый байт каждого файла и поместить его в один выходной файл, а затем сделать это снова для...
1002 просмотров
schedule 21.05.2024