Компонент «Arenadata Hadoop (ADH)»

Увеличить
Детализированная диаграмма:

Увеличить
Топология кластера Компонента «Arenadata Hadoop (ADH)» для минимальной конфигурации в одном ЦОД с уровнем доступности 99,5% содержит следующие типы узлов:
- master-adh7;
- data-adh7;
- edge-adh7.
Для обеспечения высокой доступности кластера необходимо две ВМ master-adh7 с размещенными на каждой из них единицами развертывания: Clients, Zookeeper, HDFS NameNode (основной и резервный), HDFS JournalNode, Hbase Master Server (основной и резервный). Единицы развертывания YARN Resource Manager и YARN TimelineServer не имеют встроенных механизмов отказоустойчивости, поэтому каждая из этих единиц развертывания размещается на ВМ master-adh7 в единственном экземпляре и их отказоустойчивость обеспечивается за счет средств виртуализации.
Clients обеспечивает ввод/вывод данных из прочих единиц развертывания.
Zookeeper координирует взаимодействие единиц развертывания в кластере. Для обеспечения отказоустойчивоcти кластера Zookeeper по схеме N+1 третий экземпляр Zookeeper размещается на ВМ edge-adh7-01.
HBase Master Server является основным сервером HBase, отвечающим за управление HBase-кластером. HBase Master Server управляет распределением регионов между HBase Region Server, осуществляет регистрацию регионов.
HDFS NameNode и HDFS JournalNode хранят состояние HDFS в файле fsimage и журнал операций в файле edits. Для обеспечения отказоустойчивоcти HDFS JournalNode третий экземпляр HDFS JournalNode размещается на ВМ edge-adh7-01.
YARN Resource Manager является сервисом по управлению распределением ресурсов в кластере YARN. YARN TimelineServer предназначен для хранения и извлечения текущей и исторической общей, а так же специфичной информации приложения.
Узлы DataNode являются главными средствами хранения данных и обеспечения вычислительными ресурсами. Для обеспечения необходимой производительности и отказоустойчивости необходимо как минимум три ВМ data-adh7. На каждой ВМ data-adh7 размещены следующие единицы развертывания: Clients, HBaseRegionServer, YARN Node Manager, HDFS DataNode.
Clients обеспечивает ввод/вывод данных из прочих единиц развертывания.
HBase Region Server обслуживает один или несколько регионов (Regions). Регион — это диапазон записей БД, которые хранятся вместе. Каждый регион обслуживается только одним HBase Region Server. HBase Region Server содержит несколько единиц развертывания, некоторые из них работают поверх HDFS, используя последний как хранилище данных.
YARN Node Manager сервис, устанавливаемый на каждый узел HDFS DataNode и отвечающий за предоставление ресурсов приложениям, работающим на этом узле. Он подчиняется YARN Resource Manager.
HDFS DataNode данный сервис управляется HDFS NameNode и служит для хранения данных и их обработки. HDFS DataNode исполняет запросы от Clients на чтение и запись блоков данных.
ВМ edge-adh7-01 содержит службы и плагины Компонента «Arenadata Hadoop (ADH)» необходимые для работы различных API и шлюзов, обеспечивающих взаимодействие данного Компонента с внешними подключениями.
Также для обеспечения работоспособности базы данных необходимы служебные виртуальные машины:
-
adet-adh7-01 (Arenadata Enterprise Tools (ET) – предоставляет инфраструктуру для развертывания продуктов Arenadata в среде с ограниченным доступом к сети Интернет. Arenadata Monitoring (ADM) – установочный пакет Мониторинга позволяет развернуть на ВМ adet-adh-01 кластер мониторинга. Данные из этого кластера мониторинга транслируются в сервис «Сервис мониторинга (услуга 1.16)»;
-
adcm-adh7-01 (Аrenadata Cluster Manager (ADCM) предназначен для установки, обновления, управления параметрами кластера;
-
adps-adh7-01 (Arenadata Platform Security (ADPS) обеспечивает централизованное управление политиками безопасности кластера.
Порты клиентских соединений и точки подключения указаны на детализированной диаграмме развертывания и в таблице ниже.
| Наименование единицы развертывания | Порт для подключения Администратора ГИС (Пользователей со стороны Потребителя услуг) | Назначение порта | ВМ, на которой установлена единица развертывания |
|---|---|---|---|
HDFS | TCP 8020 | Порт для клиентских подключений к HDFS по URI: scheme://host[:8020]/<путь до файла> | master-adh7-01,02 |
Zookeeper | TCP 2181 | Порт для клиентских подключений | master-adh7-01,02; edge-adh7-01 |
Zeppelin | HTTP/HTTPS 8180 | Порт веб-интерфейса | edge-adh7-01 |
Spark Thrift Server | TCP 10016 | Порт сервиса Thrift Server | edge-adh7-01 |
Spark3 Connect | HTTP/HTTPS 15002 | Порт для gRPC-соединения с Spark3 Connect | master-adh7-01,02; data-adh7-01,02,03; edge-adh7-01 |
Sqoop | Консольный клиент (порт SSH 22) | - | edge-adh7-01 |
HBase Phoenix Query Server | HTTP/HTTPS 8765/ JDBC 2181 (через Zookeeper) | Порт для доступа к API | edge-adh7-01 |
HBase REST Server | HTTP/HTTPS 60080/60080 | Порт для доступа к API | edge-adh7-01 |
HBaseThrift2 Server | TCP 9090 | Порт Thrift2 Server | edge-adh7-01 |
HDFS Name Node основной | HTTP/HTTPS 9870/9871 | Порт для операций с метаданными файловой системы | master-adh7-01 |
HDFS DataNode | TCP 9866 | Передача данных | data-adh7-01,02,03 |
HDFS HttpFS | HTTP/HTTPS 14000 | Порт HTTPfs API | edge-adh7-01 |
Hive Server | TCP 10000 (или через Zookeeper) | Порт Thrift/JDBC | edge-adh7-01 |
Порты web-интерфейсов для просмотра заданий и статусов единиц развертывания и точки подключения указаны на детализированной диаграмме развертывания и в таблице ниже.
| Наименование единицы развертывания | Порт для подключения Администратора ГИС (Пользователей со стороны Потребителя услуг) | Назначение порта | ВМ на которой установлена единица развертывания |
|---|---|---|---|
HDFS Data Node | HTTP/HTTPS 9864/9865 | Веб-интерфейс Data Node (просмотр данных конфигурации, логов, дискового пространства) | data-adh7-01,02,03 |
HDFS Name Node | HTTP/HTTPS 9870/9871 | Веб-интерфейс Name Node (просмотр данных active/standby списка Data Nodes и распределения данных по ним, «проводник» (просмотр содержимого) по файловой системе HDFS, конфигурации, логов) | Master-adh7-01,02 |
Yarn Resource Manager | HTTP/HTTPS 8088/8090 | Порт веб-интерфейса Resource Manager | Master-adh7-01 |
Yarn Resource Manager | HTTP 8030 | Порт интерфейса планировщика | Master-adh7-01 |
Yarn Resource Manager | HTTP 8031 | Порт трекера ресурсов | Master-adh7-01 |
Yarn Resource Manager | HTTP 8032 | Порт интерфейса диспетчера приложений в Resource Manager | Master-adh7-01 |
Yarn Timeline Server | HTTP/HTTPS 8188/8190 | Порт веб-интерфейса | Master-adh7-02 |
HBase Master | HTTP/HTTPS 16010 | Порт веб-интерфейса | Master-adh7-01,02 |
HBase Region Server | HTTP/HTTPS 16030 | Порт веб-интерфейса | data-adh7-01,02,03 |
HBase REST Server | HTTP/HTTPS 8085 | Порт веб-интерфейса | edge-adh7-01 |
HBaseThrift2 Server | HTTP/HTTPS 9095/9095 | Порт веб-интерфейса | edge-adh7-01 |
Hive Server 2 | HTTP 10002 | Порт веб-интерфейса | edge-adh7-01 |
Hive Tez/TezUI | HTTP/HTTPS 9999 | Порт веб-интерфейса | edge-adh7-01 |
Полный список портов указан в документации производителя по ссылке https://docs.arenadata.io/ru/ADH/current/planning/adh-port-mapping.html.

Увеличить
Детализированная диаграмма:

Увеличить
Топология кластера для минимальной конфигурации в режиме геораспределенного кластера, расположенного в двух ЦОД с уровнем доступности 99,9 %, достигается за счет размещения в каждом из двух ЦОД отдельного кластера Arenadata Hadoop, описанного выше для уровня доступности 99,5 %. Конфигурации основного и резервного кластера должны быть идентичны и совпадают с конфигурацией единичного кластера в одном ЦОД с уровнем доступности 99,5 %.
Синхронизация данных между кластерами в ВЦОД 1 и ВЦОД 2 происходит при помощи сторонних прикладных решений, не входящих в услугу 1.7 на базе Компонента «Arenadata Hadoop (ADH)». Предполагается использование метода двойной загрузки данных со стороны стороннего ПО в оба кластера ADH.