Я пытаюсь создать платформу больших данных для приема и хранения в Hadoop большого количества разнородных данных, таких как (документы, видео, изображения, данные датчиков и т. Д.), А затем реализовать процесс классификации. Итак, какая архитектура может мне помочь, поскольку в настоящее время я использую VMware VSphere EXSi Hadoop
Habse Thrift XAMPP. Все это работает нормально, но я не знаю, как получать большой объем данных и как хранить данные, потому что я обнаружил, что Hbase - это база данных, ориентированная на столбцы, а не хранилище данных.
Как создать платформу больших данных для приема и хранения больших данных в Hadoop
Ответы (1)
Вам необходимо настроить решение для типа больших данных (структурированные, полуструктурированные и неструктурированные).
Вы можете использовать HIVE / HBASE для структурированных данных, если общий размер данных ‹= 10 ТБ.
Вы можете использовать SQOOP для импорта структурированных данных из традиционной СУБД Oracle, SQL Server и т. Д.
Вы можете использовать FLUME для обработки неструктурированных данных.
Вы можете использовать систему управления контентом для обработки неструктурированных и полуструктурированных данных - тера или пета байтов данных. Если вы храните неструктурированные данные, я предпочитаю хранить данные в CMS и использовать информацию метаданных в базе данных NoSQL, например HBASE.
Для обработки потоковой передачи больших данных можно использовать PIG.
Взгляните на Структурированные данные и Un -Структурированные данные обработка в Hadoop