Как ускорить процесс файла CSV? (5 миллионов и более записей)

Я написал консольную программу VB.net для обработки CSV-записи, поступающей в текстовый файл. Я использую библиотеку FileHelpers

вместе с библиотекой MSFT Enterprise 4. Читать записи по одной и вставлять в базу данных.

На обработку 5+ миллионов записей в текстовом файле ушло около 3-4 часов.

Можно ли как-то ускорить процесс? Кто-нибудь имел дело с таким большим количеством записей раньше, и как бы вы обновили такие записи, если есть новые данные для обновления?

edit: Может ли кто-нибудь порекомендовать профилировщик? предпочитаете с открытым исходным кодом или бесплатно.

csv vb.net

Jack 31.03.2009 источник

comment

Почему бы просто не вставить эти данные непосредственно в базу данных SQL Server с помощью Microsoft SQL Server Management Studio? - Konstantin Tarkus 01.04.2009

comment

Если его необходимо изменить, вы можете вставить его во временную таблицу, а затем применить свои изменения с помощью T-SQL. - Konstantin Tarkus 01.04.2009

comment

Как вы делаете это автоматически? Без человеческого взаимодействия? - Jack 01.04.2009

Ответы (12)

arrow_upward
3
arrow_downward

читать запись по одной и вставлять в базу данных

Прочитайте их партиями и вставьте их партиями.

yfeldblum 31.03.2009

comment

Массовая вставка — ваш друг. msdn.microsoft.com/en-us/library/ms188365.aspx - Joel Coehoorn; 01.04.2009

arrow_upward
2
arrow_downward

Воспользуйтесь профилировщиком — узнайте, куда уходит время.

Если не считать настоящего профилировщика, попробуйте следующее:

Время, сколько времени требуется, чтобы просто прочитать файлы построчно, ничего с ними не делая
Возьмите образец строки и засеките, сколько времени потребуется, чтобы просто разобрать ее и выполнить любую необходимую обработку, 5+ миллионов раз.
Генерировать случайные данные и вставлять их в базу данных, и время,

Я предполагаю, что база данных будет узким местом. Вам следует подумать о пакетной вставке - если вы вставляете только одну запись за раз, это, вероятно, будет намного медленнее, чем пакетная вставка.

Jon Skeet 31.03.2009

arrow_upward
2
arrow_downward

Я делал много таких приложений в прошлом, и есть несколько способов оптимизации.

Убедитесь, что код, который вы пишете, правильно управляет памятью, с чем-то вроде этого одна небольшая ошибка может замедлить процесс до сканирования.
Подумайте о написании вызовов базы данных как асинхронных, так как это может быть узким местом, поэтому небольшая очередь может быть в порядке.
Рассмотрите возможность удаления индексов, выполнения импорта, а затем повторного импорта.
Рассмотрите возможность использования SSIS для импорта, он уже оптимизирован и делает такие вещи из коробки.

Mitchel Sellers 31.03.2009

comment

Просто не тратьте на это слишком много времени — если это не что-то действительно очевидное (например, чтение файла по одному символу за раз, алгоритм экспоненциального времени или что-то столь же очевидное), вы тратите свое время впустую, когда пытаетесь спекулировать. где замедление. - David Wolever; 01.04.2009

comment

@david Хороший момент, другое дело, что для моего пункта № 1 что-то вроде Ants Profiler может стать хорошим инструментом для устранения неполадок. - Mitchel Sellers; 01.04.2009

arrow_upward
2
arrow_downward

Почему бы просто не вставить эти данные непосредственно в базу данных SQL Server с помощью Microsoft SQL Server Management Studio или командной строки — SQLCMD? Он знает, как обрабатывать файлы CVC.

Для свойства BulkInsert в вашей базе данных должно быть установлено значение True.

Если его необходимо изменить, вы можете вставить его во временную таблицу, а затем применить свои изменения с помощью T-SQL.

Konstantin Tarkus 31.03.2009

arrow_upward
1
arrow_downward

Лучше всего было бы попробовать использовать профилировщик с относительно небольшой выборкой — это могло бы определить, где находятся фактические задержки.

Rowland Shaw 31.03.2009

arrow_upward
0
arrow_downward

Загрузите его в память, а затем вставьте в БД. 5 миллионов строк не должны напрягать вашу память. Проблема в том, что вы, по сути, перегружаете свой диск - как читаете CSV, так и записываете в БД.

Jeff 31.03.2009

arrow_upward
0
arrow_downward

Я бы ускорил его так же, как ускорил бы что угодно: запустив его через профилировщик и выяснив, что занимает больше всего времени.

Совершенно невозможно угадать, в чем здесь узкое место — может быть, в коде, который анализирует файл CSV, есть ошибка, что приводит к полиномиальному времени выполнения? Может быть, для обработки каждой строки используется какая-то очень сложная логика? Кто знает!

Кроме того, для «рекорда» 5 миллионов строк не НАСТОЛЬКО тяжелы — мне пришла в голову догадка, что разумная программа должна быть в состоянии обработать это за полчаса, а хорошая программа гораздо меньше.

Наконец, если вы обнаружите, что база данных является вашим узким местом, проверьте, фиксируется ли транзакция после каждой вставки. Это может привести к некоторому нетривиальному замедлению...

David Wolever 31.03.2009

comment

@David, не недооценивайте 5 миллионов поездок туда и обратно, это может быть много в зависимости от среды. - eglasius; 01.04.2009

arrow_upward
0
arrow_downward

Не уверен, что ты с ними делаешь, но думал ли ты о perl? Недавно я переписал vb-скрипт, который делал что-то похожее — обрабатывал тысячи записей — и время увеличилось с часа для vb-скрипта до 15 секунд для perl.

chris 31.03.2009

arrow_upward
0
arrow_downward

После чтения всех записей из файла (я бы прочитал весь файл за один проход или по блокам), затем используйте класс SqlBulkCopy для импорта ваших записей в БД. Насколько я знаю, SqlBulkCopy — это быстрый подход к импорту блока записей. В Интернете есть несколько учебных пособий.

Kyle B. 31.03.2009

arrow_upward
0
arrow_downward

Как предлагали другие, сначала профилируйте приложение.

Тем не менее, вы, вероятно, выиграете от пакетных вставок. Так было с одним приложением, с которым я работал, и оно оказало большое влияние.

Учтите, что 5 миллионов циклов — это много, особенно если каждый из них предназначен для простой вставки.

eglasius 31.03.2009

arrow_upward
0
arrow_downward

В аналогичной ситуации мы увидели значительное улучшение производительности при переходе от вставки по одной строке за раз к использованию SqlBulkCopy API.

Есть хорошая статья здесь.

Jason DeFontes 31.03.2009

arrow_upward
0
arrow_downward

Вам необходимо выполнить массовую загрузку данных в базу данных, если у нее есть такая возможность. В Sql Server вы будете смотреть на BCP, DTS или SSIS — BCP является самым старым, но, возможно, самым быстрым. OTOH, если это невозможно в вашей БД, отключите все индексы перед запуском, я предполагаю, что проблемы вызывает БД, а не код .Net.

MrTelly 31.03.2009

Как ускорить процесс файла CSV? (5 миллионов и более записей)

Ответы (12)

Похожие вопросы