О сервисе

Сервис СУБД хранения неструктурированных данных (услуга 1.7) основан на дистрибутиве open-source решения Apache Hadoop. Сервис предназначен для работы с большими (до десятков петабайт) объемами данных. Основано на дистрибутиве Hortonworks Data Platform v3.1.
Основные возможности:
  • хранение структурированных и неструктурированных данных;
  • обработка данных с применением модели распределенных вычислений;
  • управление кластером компонентов, необходимых для работы с данными.
Сервис ширококолоночной СУБД интегрирован c другими сервисами платформы, что позволяет аналитикам и инженерам данных удобно переносить и обрабатывать большие объемы данных.

Компоненты сервиса

Компоненты сервиса представлены в таблице ниже.
КомпонентНазначение
1
AmbariОбеспечивает управление и контроль кластера Hadoop, а также интеграцию Hadoop с существующей корпоративной инфраструктурой
2
HBaseРаботает поверх распределенной файловой системы HDFS и обеспечивает возможности BigTable для Hadoop, реализуя отказоустойчивый способ хранения больших объемов распределенных данных
3
HDFSРаспределенная файловая система для хранения очень больших объемов данных. HDFS также разработан для возможности параллельной обработки данных
4
HiveИнструмент инфраструктуры хранилища данных для обработки структурированных данных в Hadoop. Он находится на верхнем слое Hadoop для обобщения данных и облегчает запросы и анализ
5
HUEВеб-приложение для графического использования основных приложений Hadoop Ecosystem. Hue предоставляет интерфейсы для взаимодействия с такими компонентами, как: HDFS, MapReduce, Hive и Spark
6
MapReduceРазбивает задачу на мелкие части и распределяет их по множеству компьютеров. Позже результаты собираются в одном месте и интегрируются для формирования результирующего набора данных
7
OozieПроект с открытым исходным кодом на основе технологии Java, упрощающий процесс создания потоков работ и координацию заданий. Oozie предоставляет принципиальную возможность объединения нескольких последовательно выполняемых заданий в одну логическую единицу работы. Oozie полностью интегрирован со стеком Hadoop и поддерживает задания Hadoop для MapReduce, Pig, Hive и Sqoop
8
SolrПлатформа полнотекстового поиска с открытым исходным кодом, основанная на проекте Apache Lucence
9
SqoopИнструмент, предназначенный для передачи данных между Hadoop и реляционными базами данных или мэйнфреймами
10
TezПлатформа на основе YARN, которая обеспечивает высокопроизводительную обработку данных в Hadoop. Основная особенность Tez заключается в создании DAG (directed acyclic graph — направленного ациклического графа) и часто используется как альтернатива Hadoop MapReduce
11
YARNСвязывает блок хранения Hadoop, то есть HDFS (распределенная файловая система Hadoop), с различными инструментами обработки. Основная идея YARN - облегчить MapReduce, взяв на себя ответственность за управление ресурсами и планирование работ. YARN предоставляет Hadoop возможность запускать задания, не связанные с MapReduce, в рамках Hadoop
12
ZookeeperЦентрализованная служба для поддержки информации о конфигурации, именования, обеспечения распределенной синхронизации и предоставления групповых служб

Показатели назначения

Минимальная конфигурация Cервиса обеспечивает:
  • для Компонента хранения больших объемов неструктурированных данных «Платформа по работе с данными Сбера SberData Platform» — размещение пользовательских данных размером в 210 Гб. С учетом накладных расходов размер дисковой подсистемы должен быть 800 ГБ на дата-нодах;
  • для компонента «Arenadata Hadoop (ADH)» — размещение пользовательских данных размером в 2200 Гб. С учетом накладных расходов размер дисковой подсистемы должен быть 8250 ГБ на дата-нодах;
  • размер блока HDFS установлен в 128 МБ;
  • коэффициент репликации — 3.
Предыдущий раздел
Подтверждение надежности
Следующий раздел
Быстрый старт
Была ли страница полезной?