HDFS. Быстрый старт
HDFS (Hadoop Distributed File System) - это неотъемлемая часть Hadoop, содержит очень большой объём данных и обеспечивает более лёгкий доступ к ним. Чтобы хранить такой объём информации, файлы располагаются на нескольких машинах. Они находятся в резервном режиме, чтобы спасти систему от возможных потерь данных в случае сбоя. HDFS также делает приложения доступными для параллельной обработки.
Веб-интерфейс HDFS для Ambari доступен по пути Services - HDFS - Quick links - NameNode UI.

Увеличить
Пример веб-интерфейса HDFS представлен ниже:

Увеличить
Обычно взаимодействие с распределенной файловой системой HDFS происходит посредством использования командной строки.
Ниже приведен список основных команд.
№ | Операция | Описание | Синтаксис |
---|---|---|---|
1 | Вывод списка содержимого каталога HDFS | Список содержимого каталога, указанного по пути, с указанием имен, разрешений, владельца, размера и даты изменения для каждой записи. - <path> - путь к каталогу | hdfs dfs -ls <path> |
2 | Вывод рекурсивно всех записей во всех подкаталогах HDFS | Ведет себя как -ls , но рекурсивно отображает записи во всех подкаталогах. - <path> - путь к каталогу, где необходимо создать директорию | hdfs dfs -lsr <path> |
3 | Создать директорию HDFS | Создает каталог с именем path в HDFS. - <path> - путь к каталогу, где необходимо создать директорию | hdfs dfs -mkdir <path> |
4 | Копирование файла/каталога из локальной системы в HDFS | - <local path> - путь к файлу в локальной системе; - <hdfs path> - путь к директории в HDFS | hdfs dfs -put <local path> <hdfs path> |
5 | Скопировать файлы в локальную файловую систему из HDFS | Файлы, которые не проходят проверку CRC, могут быть скопированы с помощью параметра -ignore crc . Файлы и CRC могут быть скопированы с помощью опции -crc . - <local path> - путь к файлу в локальной системе; - <hdfs path> - путь к директории в HDFS | hdfs dfs -get [-ignore] [-crc] <hdfs path> <local path> |
6 | Использование диска (в байтах) HDFS | Показывает использование диска в байтах для всех файлов, соответствующих пути; имена файлов сообщаются с полным префиксом протокола HDFS. - <path> - путь к каталогу | hdfs dfs -du <path> |
7 | Перемещение файла/каталога в переделах HDFS | Перемещает файл или каталог, указанный <src> , в <dest> , в пределах HDFS | hdfs dfs -mv <src> <dest> |
8 | Копировать файлы/каталоги в переделах HDFS | Копирует файл или каталог, идентифицированный <src> , в <dest> в пределах HDFS | hdfs dfs -cp <src> <dest> |
9 | Удалить файл/пустой каталог HDFS | Удаляет файл или пустой каталог, определенный путем. - <path> - путь к файлу/каталогу | hdfs dfs -rm <path> |
10 | Удалить файл/каталог рекурсивно HDFS | Удаляет файл или каталог, идентифицированный по пути. Рекурсивно удаляет все дочерние записи (например, файлы или подкаталоги пути) | hdfs dfs -rmr <path> |
12 | Отобразить содержимое файла HDFS | Отображает содержимое файла filename на stdout . - <filename> - имя файла | hdfs dfs -cat <path>/<filename> |
13 | Создать файл HDFS | Создает файл по пути, содержащий текущее время в виде метки времени. Сбой происходит, если файл уже существует в пути, если только он не имеет размер 0. - <path> - путь к каталогу | hdfs dfs -touchz <path> |
14 | Обновление времени доступа и изменения файла в HDFS | - <path> - путь к каталогу/фалу в hdfs; - <name> - имя файла/каталога; - <timestamp> - время и дата, на которую необходимо заменить. Формат: YYMMDD:HHMMSS | hdfs dfs -touch -t <timestamp> <path>/<name> |
15 | Вывод информации о каталоге/файле HDFS | Выводит информацию о пути. [format] -это строка, которая принимает размер файла в блоках (%b), имя файла (%n), размер блока (%o), репликацию (%r) и дату модификации (%y, %Y). - <path> - путь к каталогу/файлу | hdfs dfs -stat [format] <path> |
16 | Вывод проверки каталогов/файлов HDFS | - <path> - путь к каталогу/файлу [parametr]: -d Check whether the path given by the user is a directory or not, return 0 if it is a directory. -e Check whether the path given by the user exists or not, return 0 if the path exists. -f Check whether the path given by the user is a file or not, return 0 if it is a file. -s Check if the path is not empty, return 0 if a path is not empty. -r return 0 if the path exists and read permission is granted -w return 0 if the path exists and write permission is granted -z Checks whether the file size is 0 byte or not, return 0 if the file is of 0 bytes. | hdfs dfs -test [parametr] <path> |
17 | Вывод текста, содержащегося в файле HDFS | - <path> - путь к файлу | hdfs dfs -text <path> |
18 | Добавление содержимого одного или нескольких локальных файлов, указанных в localsrc , в предоставленный конечный файл в HDFS | - <filenames> - имя файлов на локальной системе <hdfsPath> - путь до директории в hdfs | hdfs dfs -appendToFile <filenames> <hdfsPath> |
19 | Подсчитывание количества файлов, каталогов и байтов по путям, соответствующими указанному шаблону файлов в HDFS | - <path > - путь к каталогу/файлу [parametr]: -q – shows quotas(quota is the hard limit on the number of names and amount of space used for individual directories) ``-u – it limits output to show quotas and usage only <br/> -h – shows sizes in a human-readable format<br/> -v – shows header line` | hdfs dfs -count [parametr] <path> |
20 | Поиск файла/каталога в HDFS | - <path> - путь по поиску - <name> - имя файла/каталога | hdfs dfs -find <path> -name <name> -print |
21 | Слияние файлов/каталогов в HDFS | - <hdfsPath> - путь к каталогу/фалу в hdfs; - <localPath> - путь на локальной системе | hdfs dfs -getmerge <hdfsPath> <localPath> |
22 | Отображение последних 1 КБ данных файла на консоли в HDFS | - <path> - путь к каталогу/фалу в hdfs; - <name> - имя файла/каталога | hdfs dfs -tail <path>/<name> |