О сервисе

Сервис СУБД аналитического хранилища данных (услуга 1.5) представляет собой аналитическую колоночную массивно‑параллельную СУБД, основанную на open-source решении Greenplum v6.22. Кластер Greenplum состоит из экземпляров PostgreSQL, каждый из которых обрабатывает часть данных, к которым предоставляется единый интерфейс для работы, доступный через узел-координатор.
Основные операции, выполняемые Сервисом СУБД хранения неструктурированных данных:
  • операции с наборами: объединение, пересечение, различие;
  • выбор подмножества записей согласно определенным критериям;
  • проецирование – выбор подмножества атрибутов / колонок таблицы;
  • сцепление;
  • операции для создания, модификации и удаления схем таблиц;
  • операции для управления транзакциями и управления Пользователями;
  • резервное копирование базы данных.
Сервис СУБД аналитического хранилища данных включает в себя Компонент SDP AnalyticDB.

Компонент SDP AnalyticDB

Компонент SDP AnalyticDB — инструмент, позволяющий эффективно решать задачи построения аналитических хранилищ данных больших объемов, предоставляя к ним полноценный SQL-доступ.
Компонент предназначен для решения следующих задач:
  • обработка больших объемов данных;
  • настройка ограничения доступа к данным в распределенной файловой системе;
  • репликация данных на уровне узлов кластеров для повышения отказоустойчивости файловой системы.
Компонент обеспечивает реализацию следующих функций:
  • возможность создавать новые базы данных с идентичной логической структурой данных (деление по темам);
  • быстрая обработка больших объемов данных, достигаемая за счет равномерности нагрузки по всем хостам, входящих в кластер Компонента;
  • хранение больших объемов данных;
  • запись, поиск, редактирование данных;
  • модификация базы данных;
  • ввод основной массы данных посредством считывания (записи) массива данных;
  • контроль достоверности вводимых данных в каждом поле таблиц базы данных (обязательное поле, умолчание, шаблон и т.д.);
  • нахождение слов, выделение, просмотр и редактирование таблиц базы данных с удобным графическим интерфейсом;
  • резервное копирование всех данных кластера базы данных автоматически и с заданной регулярностью.
  • возможность интеграции кластера Компонента с ETL-компонентами, BI-платформами и другими аналитическими инструментами;
  • сбор статистики.
Для работы используются операционная система Альт Сервер (Альт 8 СП), используемый язык программирования C/C++, технология контейнеризации Docker.
Обладает следующими особенностями:
  • высокая мощность вычислений, достигаемая за счет большого количества хостов;
  • легкая масштабируемость за счет увеличения количества хостов при росте объема данных;
  • высокая устойчивость к отказам;
  • надежность хранения данных, обеспечиваемая механизмами файловой системы;
  • протестированная совместимость компонентов;
  • отсутствие проприетарных компонентов.

Сценарии использования

Компонент SDP AnalyticDB разработан для использования в следующих сценариях:
  1. Аналитика и бизнес-аналитика. Компонент относится к классу массивно-параллельных систем и предназначен для обработки аналитических запросов над большими объемами данных.
  2. Построение федераций данных. Наличие интеграционного модуля PXF позволяет создавать на базе кластеров под управлением SDP AnalyticDB федерации данных - виртуальной базы данных на основе нескольких источников данных. Модуль PXF позволяет обращаться к данным, размещенным на распределенных файловых системах (например, Hadoop HDFS), NoSQL базах данных (например, под управлением СУБД Apache Hive, HBase), реляционных базах данных (например, PostgreSQL/СУБД Platform V Pangolin). Также возможно подключение СУБД, предоставляющих подключение по JDBC.
  3. Автоматическое восстановление работоспособности при отказах серверов сегментов. В SDP AnalyticDB реализован подход, основанный на отсутствии разделяемых данных, что позволяет создавать зеркала сегментов. При выходе из строя сегмента или даже сервера сегмента, мастер кластера автоматически переключает зеркало в режим основного сегмента и передает ему новые задачи на обработку запросов.
  4. Горизонтальной масштабирование. Увеличить производительность и емкость хранилища под управлением SDP AnalyticDB можно за счет горизонтального масштабирования - добавления новых серверов сегментов. Как правило, добавление узлов в кластер обеспечивает линейное масштабирование производительности и емкости хранилища. Благодаря массивно-параллельной архитектуре и реализованному принципу отсутствия разделяемых данных, при добавлении ресурсов емкость и производительность расширенного кластера будет такой же, как если бы хранилище изначально было построено в новой конфигурации.

Показатели назначения

Минимальная конфигурация Сервиса обеспечивает:
  • размещение пользовательской базы данных размером в 400 Гб. С учетом накладных расходов размер дисковой подсистемы должен быть 1120 ГБ на сегмент-серверах;
  • использование опции Group Mirroring для указания зеркальных сегментов;
  • количество Primary Segments — 4.
Предыдущий раздел
Одновременное выполнение операций поиска, записи и обно...
Следующий раздел
Быстрый старт
Была ли страница полезной?