Мне нужно много обработать таблицу, содержащую более 26 миллионов строк:
- Определите правильный размер каждого столбца на основе данных указанного столбца
- Определите и удалите повторяющиеся строки.
- Создайте первичный ключ (автоматически увеличивающийся идентификатор)
- Создайте естественный ключ (уникальное ограничение)
- Добавить и удалить столбцы
Перечислите, пожалуйста, свои советы о том, как ускорить этот процесс, и порядок, в котором вы бы выполняли приведенный выше список.
Большое спасибо.
ОБНОВЛЕНИЕ: не нужно беспокоиться о одновременных пользователях. Кроме того, в этой таблице нет индексов. Эта таблица была загружена из исходного файла. Когда все будет сказано и сделано, появятся указатели.
ОБНОВЛЕНИЕ: если вы используете список, отличный от того, что я перечислил, не стесняйтесь упоминать его.
На основе комментариев и того, что я обнаружил, сработало:
- Создайте подмножество строк из более чем 26 миллионов строк. Я обнаружил, что 500 000 строк работают хорошо.
- Удалить столбцы, которые не будут использоваться (если есть)
- Установите соответствующую длину типа данных для всех столбцов за одно сканирование, используя max (len ())
- Создайте (если возможно, уникальный) кластерный индекс для столбца / столбцов, который в конечном итоге станет естественным ключом.
- Повторите шаги 2-4 для всех рядов.