Как лучше всего читать текстовый файл с разделителями табуляции на С#

У нас есть текстовый файл с примерно 100 000 строк, примерно 50 столбцов в строке, большая часть данных довольно мала (от 5 до 10 символов или цифр).

Это довольно простая задача, но просто интересно, как лучше всего импортировать эти данные в структуру данных C# (например, DataTable)?

datatable c# etl ado.net

alchemical 26.01.2010 источник

comment

Для 100 000 строк вы, вероятно, не хотите загружать их в DataTable. Возможно, вы захотите изучить использование SqlBulkCopy при вставке его в базу данных. - Even Mien 27.01.2010

Ответы (6)

arrow_upward
9
arrow_downward

Я бы прочитал его как CSV с разделителями столбцов вкладок:

Быстрая программа для чтения CSV

Изменить.
Вот простой пример того, что вам нужно:

DataTable dt = new DataTable();
using (CsvReader csv = new CsvReader(new StreamReader(CSV_FULLNAME), false, '\t')) {
    dt.Load(csv);
}

Где CSV_FULLNAME — это полный путь + имя файла вашего CSV с разделителями табуляции.

Jay Riggs 26.01.2010

comment

Я проверю, у кого-нибудь есть пример кода для его использования с разделителями столбцов табуляции? - alchemical; 27.01.2010

comment

Я бы предложил пойти с чем-то вроде этого. Вы также можете использовать драйвер Access/Jet для доступа к ADO.Net, но иногда в этом есть некоторая причудливость. - Tracker1; 27.01.2010

comment

@AirMan - я добавил простой образец. - Jay Riggs; 27.01.2010

comment

Я реализовал это, и оно отлично работает, затем мне сказали, что корпоративная политика запрещает открытый исходный код, поэтому я собрал объект, который занимает в два раза больше времени. Fast CSV Reader кажется отличным способом, если вы можете — разработчик даже ответил на пару вопросов в течение нескольких минут. - alchemical; 28.01.2010

comment

Есть ли разница в использовании CachedCsvReader для загрузки DataTable по сравнению с использованием CsvReader, поскольку DataTable все равно загружается в память, так зачем сначала использовать CachedCsvReader в памяти? - Tim Schmelter; 28.06.2012

comment

@TimSchmelter Вы правы, CsvReader было бы лучше для ОП; CachedCsvReader предназначен для конкретных сценариев привязки данных и для небольших файлов данных. Спасибо, что указали на это, ответ обновлен. - Jay Riggs; 29.06.2012

arrow_upward
3
arrow_downward

Используйте встроенный анализатор текста .NET. Он бесплатный, имеет отличную обработку ошибок и имеет дело с множеством странных случаев с мячом.

http://msdn.microsoft.com/en-us/library/microsoft.visualbasic.fileio.textfieldparser(VS.80).aspx

Jonathan Allen 26.01.2010

comment

Нет, он просто оказался в пространстве имен VB, потому что его создала эта команда. Вы можете использовать его с любого языка .NET. - Jonathan Allen; 27.01.2010

arrow_upward
1
arrow_downward

Что касается FileHelpers, вы можете определить вкладку как разделитель. Перейдите на этот сайт по предоставленной ссылке и посмотрите.

Надеюсь, это поможет. С уважением, Том.

t0mm13b 26.01.2010

arrow_upward
0
arrow_downward

Два варианта:

Используйте классы в пространстве имен System.Data.OleDb. Это имеет то преимущество, что вы читаете непосредственно в таблицу данных, как вы просили, с очень небольшим количеством кода, но это может быть сложно сделать правильно, потому что это табуляция, а не разделители-запятые.
Используйте или напишите парсер csv. Убедитесь, что это синтаксический анализатор на основе конечного автомата, такой как тот, с которым связан @Jay Riggs, а не синтаксический анализатор на основе String.Split(). Это должно быть быстрее, чем метод OleDb, но он даст вам список или массив, а не таблицу данных.

Joel Coehoorn 26.01.2010

comment

Просто любопытно, почему вы предлагаете синтаксический анализатор на основе состояния, а не String.Split(). - Andy White; 27.01.2010

comment

Производительность, в основном. Но также и то, что с помощью string.split трудно получить такие вещи, как текст в кавычках. - Joel Coehoorn; 27.01.2010

comment

Кроме того, под конечным автоматом я не подразумеваю Regex, что примерно так же плохо. Я имею в виду конечный автомат, специально созданный для этой задачи, который может лучше обрабатывать спуск/рекурсию. - Joel Coehoorn; 27.01.2010

arrow_upward
0
arrow_downward

Как бы вы ни анализировали строки, убедитесь, что вы используете что-то, что поддерживает перемотку вперед и назад, являясь источником данных вашей сетки данных. Вы ведь не хотите сначала загрузить все в память, не так ли? Как насчет того, чтобы в следующий раз объем данных был десятикратным? Сделайте что-то, что использует file.seek в глубине души, не читайте сначала все в память. Это мой совет.

Erik A. Brandstadmoen 26.01.2010

arrow_upward
0
arrow_downward

Простой, но не обязательно отличный способ:

Прочитайте файл с помощью программы чтения текста в строку
Используйте String.Split для получения строк
используйте String.Split с символом табуляции, чтобы получить значения поля

Andrew Lewis 26.01.2010

comment

просто напомню об этом - есть string[] System.IO.File.ReadAllLines(string path) - DK.; 27.01.2010

Как лучше всего читать текстовый файл с разделителями табуляции на С#

Ответы (6)

Похожие вопросы