Документация пользователя

Работа с данными

Интеграционные сервисы

Управление

Управление процессами

Служебные технологические сервисы

Предоставление кворумного ЦОД

Интеграция с инфраструктурой электронного правительства

Производственный процесс

Демопримеры

Синтетика

Интеграционные шлюзы

Эксплуатационная документация

Часто задаваемые вопросы

Глоссарий

Главная

Работа с данными

1.5 СУБД аналитического хранилища данных

О сервисе

Сервис СУБД аналитического хранилища данных (услуга 1.5) представляет собой аналитическую колоночную массивно‑параллельную СУБД, основанную на open-source решении Greenplum v6.22. Кластер Greenplum состоит из экземпляров PostgreSQL, каждый из которых обрабатывает часть данных, к которым предоставляется единый интерфейс для работы, доступный через узел-координатор.

Основные операции, выполняемые Сервисом СУБД хранения неструктурированных данных:

операции с наборами: объединение, пересечение, различие;
выбор подмножества записей согласно определенным критериям;
проецирование – выбор подмножества атрибутов / колонок таблицы;
сцепление;
операции для создания, модификации и удаления схем таблиц;
операции для управления транзакциями и управления Пользователями;
резервное копирование базы данных.

Сервис СУБД аналитического хранилища данных включает в себя Компонент SDP AnalyticDB.

Компонент SDP AnalyticDB

Компонент SDP AnalyticDB — инструмент, позволяющий эффективно решать задачи построения аналитических хранилищ данных больших объемов, предоставляя к ним полноценный SQL-доступ.

Компонент предназначен для решения следующих задач:

обработка больших объемов данных;
настройка ограничения доступа к данным в распределенной файловой системе;
репликация данных на уровне узлов кластеров для повышения отказоустойчивости файловой системы.

Компонент обеспечивает реализацию следующих функций:

возможность создавать новые базы данных с идентичной логической структурой данных (деление по темам);
быстрая обработка больших объемов данных, достигаемая за счет равномерности нагрузки по всем хостам, входящих в кластер Компонента;
хранение больших объемов данных;
запись, поиск, редактирование данных;
модификация базы данных;
ввод основной массы данных посредством считывания (записи) массива данных;
контроль достоверности вводимых данных в каждом поле таблиц базы данных (обязательное поле, умолчание, шаблон и т.д.);
нахождение слов, выделение, просмотр и редактирование таблиц базы данных с удобным графическим интерфейсом;
резервное копирование всех данных кластера базы данных автоматически и с заданной регулярностью.
возможность интеграции кластера Компонента с ETL-компонентами, BI-платформами и другими аналитическими инструментами;
сбор статистики.

Для работы используются операционная система Альт Сервер (Альт 8 СП), используемый язык программирования C/C++, технология контейнеризации Docker.

Обладает следующими особенностями:

высокая мощность вычислений, достигаемая за счет большого количества хостов;
легкая масштабируемость за счет увеличения количества хостов при росте объема данных;
высокая устойчивость к отказам;
надежность хранения данных, обеспечиваемая механизмами файловой системы;
протестированная совместимость компонентов;
отсутствие проприетарных компонентов.

Сценарии использования

Компонент SDP AnalyticDB разработан для использования в следующих сценариях:

Аналитика и бизнес-аналитика. Компонент относится к классу массивно-параллельных систем и предназначен для обработки аналитических запросов над большими объемами данных.
Построение федераций данных. Наличие интеграционного модуля PXF позволяет создавать на базе кластеров под управлением SDP AnalyticDB федерации данных - виртуальной базы данных на основе нескольких источников данных. Модуль PXF позволяет обращаться к данным, размещенным на распределенных файловых системах (например, Hadoop HDFS), NoSQL базах данных (например, под управлением СУБД Apache Hive, HBase), реляционных базах данных (например, PostgreSQL/СУБД Platform V Pangolin). Также возможно подключение СУБД, предоставляющих подключение по JDBC.
Автоматическое восстановление работоспособности при отказах серверов сегментов. В SDP AnalyticDB реализован подход, основанный на отсутствии разделяемых данных, что позволяет создавать зеркала сегментов. При выходе из строя сегмента или даже сервера сегмента, мастер кластера автоматически переключает зеркало в режим основного сегмента и передает ему новые задачи на обработку запросов.
Горизонтальной масштабирование. Увеличить производительность и емкость хранилища под управлением SDP AnalyticDB можно за счет горизонтального масштабирования - добавления новых серверов сегментов. Как правило, добавление узлов в кластер обеспечивает линейное масштабирование производительности и емкости хранилища. Благодаря массивно-параллельной архитектуре и реализованному принципу отсутствия разделяемых данных, при добавлении ресурсов емкость и производительность расширенного кластера будет такой же, как если бы хранилище изначально было построено в новой конфигурации.

Показатели назначения

Минимальная конфигурация Сервиса обеспечивает:

размещение пользовательской базы данных размером в 400 Гб. С учетом накладных расходов размер дисковой подсистемы должен быть 1120 ГБ на сегмент-серверах;
использование опции Group Mirroring для указания зеркальных сегментов;
количество Primary Segments — 4.

Предыдущий раздел

Одновременное выполнение операций поиска, записи и обно...

Следующий раздел

Быстрый старт

Была ли страница полезной?

docs_gostech@sberbank.ru