HDFS. Быстрый старт

HDFS (Hadoop Distributed File System) - это неотъемлемая часть Hadoop, содержит очень большой объём данных и обеспечивает более лёгкий доступ к ним. Чтобы хранить такой объём информации, файлы располагаются на нескольких машинах. Они находятся в резервном режиме, чтобы спасти систему от возможных потерь данных в случае сбоя. HDFS также делает приложения доступными для параллельной обработки.

Доступ к веб-интерфейсу

Веб-интерфейс HDFS для Ambari доступен по пути Services - HDFS - Quick links - NameNode UI.

Увеличить

Пример веб-интерфейса HDFS представлен ниже:

Увеличить

Обычно взаимодействие с распределенной файловой системой HDFS происходит посредством использования командной строки.

Основные операции HDFS

Ниже приведен список основных команд.
ОперацияОписаниеСинтаксис
1
Вывод списка содержимого каталога HDFSСписок содержимого каталога, указанного по пути, с указанием имен, разрешений, владельца, размера и даты изменения для каждой записи.
- <path> - путь к каталогу
hdfs dfs -ls <path>
2
Вывод рекурсивно всех записей во всех подкаталогах HDFSВедет себя как -ls, но рекурсивно отображает записи во всех подкаталогах.
- <path> - путь к каталогу, где необходимо создать директорию
hdfs dfs -lsr <path>
3
Создать директорию HDFSСоздает каталог с именем path в HDFS.
- <path> - путь к каталогу, где необходимо создать директорию
hdfs dfs -mkdir <path>
4
Копирование файла/каталога из локальной системы в HDFS- <local path> - путь к файлу в локальной системе;
- <hdfs path> - путь к директории в HDFS
hdfs dfs -put <local path> <hdfs path>
5
Скопировать файлы в локальную файловую систему из HDFSФайлы, которые не проходят проверку CRC, могут быть скопированы с помощью параметра -ignore crc. Файлы и CRC могут быть скопированы с помощью опции -crc.
- <local path> - путь к файлу в локальной системе;
- <hdfs path> - путь к директории в HDFS
hdfs dfs -get [-ignore] [-crc] <hdfs path> <local path>
6
Использование диска (в байтах) HDFSПоказывает использование диска в байтах для всех файлов, соответствующих пути; имена файлов сообщаются с полным префиксом протокола HDFS.
- <path> - путь к каталогу
hdfs dfs -du <path>
7
Перемещение файла/каталога в переделах HDFSПеремещает файл или каталог, указанный <src>, в <dest>, в пределах HDFShdfs dfs -mv <src> <dest>
8
Копировать файлы/каталоги в переделах HDFSКопирует файл или каталог, идентифицированный <src>, в <dest> в пределах HDFShdfs dfs -cp <src> <dest>
9
Удалить файл/пустой каталог HDFSУдаляет файл или пустой каталог, определенный путем.
- <path> - путь к файлу/каталогу
hdfs dfs -rm <path>
10
Удалить файл/каталог рекурсивно HDFSУдаляет файл или каталог, идентифицированный по пути. Рекурсивно удаляет все дочерние записи (например, файлы или подкаталоги пути)hdfs dfs -rmr <path>
12
Отобразить содержимое файла HDFSОтображает содержимое файла filename на stdout.
- <filename> - имя файла
hdfs dfs -cat <path>/<filename>
13
Создать файл HDFSСоздает файл по пути, содержащий текущее время в виде метки времени. Сбой происходит, если файл уже существует в пути, если только он не имеет размер 0.
- <path> - путь к каталогу
hdfs dfs -touchz <path>
14
Обновление времени доступа и изменения файла в HDFS- <path> - путь к каталогу/фалу в hdfs;
- <name> - имя файла/каталога;
- <timestamp> - время и дата, на которую необходимо заменить. Формат: YYMMDD:HHMMSS
hdfs dfs -touch -t <timestamp> <path>/<name>
15
Вывод информации о каталоге/файле HDFSВыводит информацию о пути.
[format] -это строка, которая принимает размер файла в блоках (%b), имя файла (%n), размер блока (%o), репликацию (%r) и дату модификации (%y, %Y).
- <path> - путь к каталогу/файлу
hdfs dfs -stat [format] <path>
16
Вывод проверки каталогов/файлов HDFS- <path> - путь к каталогу/файлу

[parametr]:

-d Check whether the path given by the user is a directory or not, return 0 if it is a directory.
-e Check whether the path given by the user exists or not, return 0 if the path exists.
-f Check whether the path given by the user is a file or not, return 0 if it is a file.
-s Check if the path is not empty, return 0 if a path is not empty.
-r return 0 if the path exists and read permission is granted
-w return 0 if the path exists and write permission is granted
-z Checks whether the file size is 0 byte or not, return 0 if the file is of 0 bytes.
hdfs dfs -test [parametr] <path>
17
Вывод текста, содержащегося в файле HDFS- <path> - путь к файлуhdfs dfs -text <path>
18
Добавление содержимого одного или нескольких локальных файлов, указанных в localsrc, в предоставленный конечный файл в HDFS- <filenames> - имя файлов на локальной системе
<hdfsPath> - путь до директории в hdfs
hdfs dfs -appendToFile <filenames> <hdfsPath>
19
Подсчитывание количества файлов, каталогов и байтов по путям, соответствующими указанному шаблону файлов в HDFS- <path> - путь к каталогу/файлу

[parametr]:

-q – shows quotas(quota is the hard limit on the number of names and amount of space used for individual directories)
``-u – it limits output to show quotas and usage only<br/> -h – shows sizes in a human-readable format<br/> -v – shows header line`
hdfs dfs -count [parametr] <path>
20
Поиск файла/каталога в HDFS- <path> - путь по поиску
- <name> - имя файла/каталога
hdfs dfs -find <path> -name <name> -print
21
Слияние файлов/каталогов в HDFS- <hdfsPath> - путь к каталогу/фалу в hdfs;
- <localPath> - путь на локальной системе
hdfs dfs -getmerge <hdfsPath> <localPath>
22
Отображение последних 1 КБ данных файла на консоли в HDFS- <path> - путь к каталогу/фалу в hdfs;
- <name> - имя файла/каталога
hdfs dfs -tail <path>/<name>
Предыдущий раздел
Быстрый старт
Следующий раздел
Быстрый старт
Была ли страница полезной?