Работа с огромными наборами данных с помощью Impala

У меня есть общий вопрос об Impala и некоторых традиционных системах баз данных SQL. Я слышал, что Impala может воспринимать определенные операторы SQL буквально и выдавать таблицы с миллиардами строк (например, что может произойти с оператором соединения с повторяющимися строками). В качестве более узкого примера предположим, что я запускаю что-то вроде «SELECT * FROM database». Что касается немедленного вывода на консоль, я понимаю, что большинство традиционных баз данных SQL перестанут работать, когда будет достигнут предел, скажем, в 1000 записей. То же самое относится и к Импале? Другими словами, если я запускаю «SELECT * FROM database» в Impala, будет ли теоретически выполняться больше работы, даже если в конечном итоге будет выдано ограниченное количество строк?


person Alex R.    schedule 22.01.2016    source источник


Ответы (1)


Я думаю, это зависит от того, что вы используете для выполнения запроса. Если вы просто запустите из командной строки в Bash или оболочке Impala, он получит все результаты, однако, если вы используете Hue, он будет просматривать результаты, как вы описываете. На самом деле то же самое верно для любой базы данных, если вы используете графический интерфейс для доступа к ней, вы можете запустить что-то вроде команды экспорта в csv, чтобы получить полный набор результатов, или, если вы выполняете программный доступ, вы должны использовать fetchall().

person maxymoo    schedule 22.01.2016