Как создать платформу больших данных для приема и хранения больших данных в Hadoop

Я пытаюсь создать платформу больших данных для приема и хранения в Hadoop большого количества разнородных данных, таких как (документы, видео, изображения, данные датчиков и т. Д.), А затем реализовать процесс классификации. Итак, какая архитектура может мне помочь, поскольку в настоящее время я использую VMware VSphere EXSi Hadoop
Habse Thrift XAMPP
. Все это работает нормально, но я не знаю, как получать большой объем данных и как хранить данные, потому что я обнаружил, что Hbase - это база данных, ориентированная на столбцы, а не хранилище данных.


person Kha    schedule 05.10.2015    source источник


Ответы (1)


Вам необходимо настроить решение для типа больших данных (структурированные, полуструктурированные и неструктурированные).

Вы можете использовать HIVE / HBASE для структурированных данных, если общий размер данных ‹= 10 ТБ.

Вы можете использовать SQOOP для импорта структурированных данных из традиционной СУБД Oracle, SQL Server и т. Д.

Вы можете использовать FLUME для обработки неструктурированных данных.

Вы можете использовать систему управления контентом для обработки неструктурированных и полуструктурированных данных - тера или пета байтов данных. Если вы храните неструктурированные данные, я предпочитаю хранить данные в CMS и использовать информацию метаданных в базе данных NoSQL, например HBASE.

Для обработки потоковой передачи больших данных можно использовать PIG.

Взгляните на Структурированные данные и Un -Структурированные данные обработка в Hadoop

Другой тип решений для данных

person Ravindra babu    schedule 05.10.2015