Производительность Apache Ignite и Apache Drill для SQL

Мне нужно получить данные из некоторых больших таблиц MySQL, чтобы их можно было отображать на панели управления / веб-портале. В основном я сосредоточен на улучшении производительности SQL с учетом размера наборов данных.

Кроме того, является ли Apache Ignite менее масштабируемым, чем Apache Drill, учитывая, что Ignite использует оперативную память в качестве основного источника данных?

Пожалуйста, дайте мне знать, если потребуется более подробная информация.

Я прошел по этим ссылкам: http://drcos.boudnik.org/2015/04/apache-ignite-vs-apache-spark.html https://mpouttuclarke.wordpress.com/2016/01/04/why-i-tried-apache-spark-and-moved-on/ < / а>

Снижает ли использование дополнительного слоя HDFS под IGFS производительность системы до уровня SparkSQL? https://ignite.apache.org/features/igfs.html


person NiSSaN    schedule 09.08.2016    source источник


Ответы (2)


Drill - это просто механизм SQL-запросов, в основном для баз данных NoSQL. Его производительность хороша по сравнению с кустом и многими базами данных NOSQL из-за обработки памяти.

Проверьте, как выполнение запросов работает в Drill - здесь .

Масштабируемость

Drill Apache обладает высокой масштабируемостью, и об этом не нужно беспокоиться.

Вы не можете сравнивать два совпадающих инструмента в теориях. Я предлагаю вам выполнить POC, взяв несколько образцов данных MySQL на обоих инструментах. Производительность во многом зависит от вашего варианта использования.

Drill лучше всего подходит для запросов к сложным файлам JSON (из-за их столбчатой ​​структуры) и решения вариантов использования многоязычных языков (выполнение соединения между несколькими хранилищами данных).

person Dev    schedule 10.08.2016

Кроме того, является ли Apache Ignite менее масштабируемым, чем Apache Drill, учитывая, что Ignite использует оперативную память в качестве основного источника данных?

Наличие данных в памяти на самом деле позволяет лучше масштабировать. Я мало знаю о Drill и не могу сравнивать, но Ignite - это масштабируемость и очень хорошо масштабируется.

Снижает ли использование дополнительного слоя HDFS под IGFS производительность системы до уровня SparkSQL? https://ignite.apache.org/features/igfs.html

Если HDFS используется в качестве вторичной файловой системы, доступ к ней осуществляется только в том случае, если запрошенные данные еще не находятся в памяти. Так что при правильном использовании он вас не замедлит.

Обратите внимание, что Ignite предоставляет очень широкие возможности SQL [1]. Вы можете просто выполнить загрузку данных в память и выполнить запросы, совместимые с ANSI-99, с быстрым индексированным поиском. Например, SparkSQL вообще не поддерживает индексацию, что во многих случаях делает ее намного медленнее (по крайней мере, насколько мне известно).

[1] https://apacheignite.readme.io/docs/sql-queries

person Valentin Kulichenko    schedule 10.08.2016
comment
это было полезно. Кроме того, не могли бы вы указать мне на несколько руководств по правильному использованию HDFS в качестве вторичной файловой системы? - person NiSSaN; 10.08.2016