О сервисе
Сервис СУБД аналитического хранилища данных (услуга 1.5) представляет собой аналитическую колоночную массивно‑параллельную СУБД, основанную на open-source решении Greenplum v6.22. Кластер Greenplum состоит из экземпляров PostgreSQL, каждый из которых обрабатывает часть данных, к которым предоставляется единый интерфейс для работы, доступный через узел-координатор.
Основные операции, выполняемые Сервисом СУБД хранения неструктурированных данных:
- операции с наборами: объединение, пересечение, различие;
- выбор подмножества записей согласно определенным критериям;
- проецирование – выбор подмножества атрибутов / колонок таблицы;
- сцепление;
- операции для создания, модификации и удаления схем таблиц;
- операции для управления транзакциями и управления Пользователями;
- резервное копирование базы данных.
Сервис СУБД аналитического хранилища данных включает в себя Компонент SDP AnalyticDB.
Компонент SDP AnalyticDB — инструмент, позволяющий эффективно решать задачи построения аналитических хранилищ данных больших объемов, предоставляя к ним полноценный SQL-доступ.
Компонент предназначен для решения следующих задач:
- обработка больших объемов данных;
- настройка ограничения доступа к данным в распределенной файловой системе;
- репликация данных на уровне узлов кластеров для повышения отказоустойчивости файловой системы.
Компонент обеспечивает реализацию следующих функций:
- возможность создавать новые базы данных с идентичной логической структурой данных (деление по темам);
- быстрая обработка больших объемов данных, достигаемая за счет равномерности нагрузки по всем хостам, входящих в кластер Компонента;
- хранение больших объемов данных;
- запись, поиск, редактирование данных;
- модификация базы данных;
- ввод основной массы данных посредством считывания (записи) массива данных;
- контроль достоверности вводимых данных в каждом поле таблиц базы данных (обязательное поле, умолчание, шаблон и т.д.);
- нахождение слов, выделение, просмотр и редактирование таблиц базы данных с удобным графическим интерфейсом;
- резервное копирование всех данных кластера базы данных автоматически и с заданной регулярностью.
- возможность интеграции кластера Компонента с ETL-компонентами, BI-платформами и другими аналитическими инструментами;
- сбор статистики.
Для работы используются операционная система Альт Сервер (Альт 8 СП), используемый язык программирования C/C++, технология контейнеризации Docker.
Обладает следующими особенностями:
- высокая мощность вычислений, достигаемая за счет большого количества хостов;
- легкая масштабируемость за счет увеличения количества хостов при росте объема данных;
- высокая устойчивость к отказам;
- надежность хранения данных, обеспечиваемая механизмами файловой системы;
- протестированная совместимость компонентов;
- отсутствие проприетарных компонентов.
Сценарии использования
Компонент SDP AnalyticDB разработан для использования в следующих сценариях:
- Аналитика и бизнес-аналитика. Компонент относится к классу массивно-параллельных систем и предназначен для обработки аналитических запросов над большими объемами данных.
- Построение федераций данных. Наличие интеграционного модуля PXF позволяет создавать на базе кластеров под управлением SDP AnalyticDB федерации данных - виртуальной базы данных на основе нескольких источников данных. Модуль PXF позволяет обращаться к данным, размещенным на распределенных файловых системах (например, Hadoop HDFS), NoSQL базах данных (например, под управлением СУБД Apache Hive, HBase), реляционных базах данных (например, PostgreSQL/СУБД Platform V Pangolin). Также возможно подключение СУБД, предоставляющих подключение по JDBC.
- Автоматическое восстановление работоспособности при отказах серверов сегментов. В SDP AnalyticDB реализован подход, основанный на отсутствии разделяемых данных, что позволяет создавать зеркала сегментов. При выходе из строя сегмента или даже сервера сегмента, мастер кластера автоматически переключает зеркало в режим основного сегмента и передает ему новые задачи на обработку запросов.
- Горизонтальной масштабирование. Увеличить производительность и емкость хранилища под управлением SDP AnalyticDB можно за счет горизонтального масштабирования - добавления новых серверов сегментов. Как правило, добавление узлов в кластер обеспечивает линейное масштабирование производительности и емкости хранилища. Благодаря массивно-параллельной архитектуре и реализованному принципу отсутствия разделяемых данных, при добавлении ресурсов емкость и производительность расширенного кластера будет такой же, как если бы хранилище изначально было построено в новой конфигурации.
Минимальная конфигурация Сервиса обеспечивает:
- размещение пользовательской базы данных размером в 400 Гб. С учетом накладных расходов размер дисковой подсистемы должен быть 1120 ГБ на сегмент-серверах;
- использование опции Group Mirroring для указания зеркальных сегментов;
- количество Primary Segments — 4.