Документация пользователя

Работа с данными

Интеграционные сервисы

Управление

Управление процессами

Служебные технологические сервисы

Предоставление кворумного ЦОД

Интеграция с инфраструктурой электронного правительства

Производственный процесс

Демопримеры

Синтетика

Интеграционные шлюзы

Эксплуатационная документация

Часто задаваемые вопросы

Глоссарий

Главная

Работа с данными

1.2 Ширококолоночная СУБД

О сервисе

Сервис ширококолоночной СУБД (услуга 1.2) основан на дистрибутиве SDP Hadoop 3.5.0.3, который в свою очередь основан на open-source решении Apache Hadoop. Сервис предназначен для работы с большими (до десятков петабайт) объёмами структурированных и неструктурированных данных. Ширококолоночная СУБД основана на Apache HBase v2.2.3.

Основные возможности:

хранение структурированных и неструктурированных данных;
обработка данных с применением модели распределенных вычислений;
управление кластером компонентов, необходимых для работы с данными;
репликация данных на уровне узлов кластера для повышения отказоустойчивости файловой системы;
поддержка пакетной и потоковой загрузки данных;
настройка ограничения доступа к данным в распределенной файловой системе;
использование инструментов для разворачивания, управления и мониторинга вычислительных кластеров;
использование инструментов для планирования заданий и управления вычислительными ресурсами кластеров.

Сервис ширококолоночной СУБД интегрирован c другими сервисами платформы, что позволяет аналитикам и инженерам данных удобно переносить и обрабатывать большие объемы данных.

Компоненты сервиса

Компоненты сервиса представлены в таблице ниже.

№	Компонент	Назначение

1	Ambari	Обеспечивает управление и контроль кластера Hadoop, а также интеграцию Hadoop с существующей корпоративной инфраструктурой
2	HBase	Работает поверх распределенной файловой системы HDFS и обеспечивает возможности BigTable для Hadoop, реализуя отказоустойчивый способ хранения больших объемов распределенных данных
3	HDFS	Распределенная файловая система для хранения очень больших объемов данных. HDFS также разработан для возможности параллельной обработки данных
4	Hive	Инструмент инфраструктуры хранилища данных для обработки структурированных данных в Hadoop. Он находится на верхнем слое Hadoop для обобщения данных и облегчает запросы и анализ
5	HUE	Веб-приложение для графического использования основных приложений Hadoop Ecosystem. Hue предоставляет интерфейсы для взаимодействия с такими компонентами, как: HDFS, MapReduce, Hive и Spark
6	MapReduce	Разбивает задачу на мелкие части и распределяет их по множеству компьютеров. Позже результаты собираются в одном месте и интегрируются для формирования результирующего набора данных
7	Oozie	Проект с открытым исходным кодом на основе технологии Java, упрощающий процесс создания потоков работ и координацию заданий. Oozie предоставляет принципиальную возможность объединения нескольких последовательно выполняемых заданий в одну логическую единицу работы. Oozie полностью интегрирован со стеком Hadoop и поддерживает задания Hadoop для MapReduce, Pig, Hive и Sqoop
8	Solr	Платформа полнотекстового поиска с открытым исходным кодом, основанная на проекте Apache Lucence
9	Sqoop	Инструмент, предназначенный для передачи данных между Hadoop и реляционными базами данных или мэйнфреймами
10	Tez	Платформа на основе YARN, которая обеспечивает высокопроизводительную обработку данных в Hadoop. Основная особенность Tez заключается в создании DAG (directed acyclic graph — направленного ациклического графа) и часто используется как альтернатива Hadoop MapReduce
11	YARN	Связывает блок хранения Hadoop, то есть HDFS (распределенная файловая система Hadoop), с различными инструментами обработки. Основная идея YARN - облегчить MapReduce, взяв на себя ответственность за управление ресурсами и планирование работ. YARN предоставляет Hadoop возможность запускать задания, не связанные с MapReduce, в рамках Hadoop
12	Zookeeper	Централизованная служба для поддержки информации о конфигурации, именования, обеспечения распределенной синхронизации и предоставления групповых служб

Показатели назначения

Минимальная конфигурация Сервиса обеспечивает:

размещение пользовательских данных размером в 210 Гб. С учетом накладных расходов размер дисковой подсистемы должен быть 800 ГБ на дата-нодах;
размер блока HDFS — 128 МБ;
коэффициент репликации — 3.

Предыдущий раздел

TPCC

Следующий раздел

Быстрый старт

Была ли страница полезной?

docs_gostech@sberbank.ru