网站做政务百度秒收录软件工具
文章目录
- 1 进程启停管理
 - 2 文件系统操作命令
 - 2.1 HDFS文件系统基本信息
 - 2.2 介绍
 - 2.3 创建文件夹
 - 2.4 查看指定文件夹下的内容
 - 2.5 上传文件到HDFS
 - 2.6 查看HDFS文件内容
 - 2.7 下载HDFS文件
 - 2.8 HDFS数据删除操作
 
- 3 HDFS客户端-jetbrians产品插件
 - 3.1 Big Data Tools 安装
 - 3.2 配置windows
 - 3.3 配置Big Data Tools
 
- 结语
 
以下命令执行默认配置了hadoop的环境变量,且使用新命令。
1 进程启停管理
-  
一键启停脚本
# 开启命令 start-dfs.sh # 停止命令 stop-dfs.sh -  
独立进程启停
hdfs --daemon (start|status|stop) (namenode|secondarynamenode|datanode) 
2 文件系统操作命令
2.1 HDFS文件系统基本信息
HDFS作为分布式存储的文件系统,有其对数据的路径表达式。如果熟悉Linux文件系统,可以对比学习。
- HDFS同Linux系统一样,均是以/作为根目录的组织形式
 


如何区分呢?
•Linux:file:/// 为linux的文件协议头
•HDFS:hdfs://为hdfs协议头
如上路径:
•Linux:file:///usr/local/hello.txt
•HDFS:hdfs://node1:8020/usr/local/hello.txt
协议头file:/// 或 hdfs://node1:8020/可以省略
•需要提供Linux路径的参数,会自动识别为file://
•需要提供HDFS路径的参数,会自动识别为hdfs://
除非你明确需要写或不写会有BUG,否则一般不用写协议头
2.2 介绍
关于HDFS文件系统的操作命令,Hadoop提供了2套命令体系
•hadoop命令(老版本用法),用法:hadoop fs [generic options]
•hdfs命令(新版本用法),用法:hdfs dfs [generic options]
两者在文件系统操作上,用法完全一致
用哪个都可以
某些特殊操作需要选择hadoop命令或hdfs命令
讲到的时候具体分析
下面以新版本用户hdfs命令为例介绍
2.3 创建文件夹
语法:
hdfs dfs -mkdir [-p] <path> ...
 
- mkdir:创建文件夹
 - -p:如果父目录不存在,创建
 - path:待创建的目录
 
示例:
hdfs dfs -mkdir -p /gaogzhen/bigdata
 
2.4 查看指定文件夹下的内容
语法:
hadfs -ls [-h] [-R] [<path> ...]
 
- -h:人性化显示文件size
 - -R:递归查看指定目录及其子目录
 
示例:
hdfs dfs -ls -R /
[hadoop@node1 ~]$ hdfs dfs -ls -R /
drwxr-xr-x   - hadoop supergroup          0 2023-08-30 20:44 /gaogzhen
drwxr-xr-x   - hadoop supergroup          0 2023-08-30 20:46 /gaogzhen/bigdata
-rw-r--r--   3 hadoop supergroup         20 2023-08-30 20:46 /gaogzhen/bigdata/words.txt
 
2.5 上传文件到HDFS
语法:
hdfs dfs -put [-f] [-p] <src> ... <dst>
 
- -f :覆盖目标文件(如果存在);
 - -p:保留访问和修改权限,所有权和权限;
 - src:本地文件系统
 - dst:目的文件系统(HDFS)
 
示例:
hdfs dfs -put -f words.txt /gaogzhen/bigdata
 
2.6 查看HDFS文件内容
语法:
hdfs dfs -cat <src> ...
 
- 读取指定文件全部内容,显示在标准输出控制台
 
同Linux一样,可以配置more less 使用。
示例:
hdfs dfs -cat /gaogzhen/bigdata/words.txt
node1
node2
node3
`
 
2.7 下载HDFS文件
hdfs dfs -get [-f] [-p] <src> ... <localdst>
 
-  
下载文件到本地文件系统指定目录,localdst必须是目录
 -  
-f 覆盖目标文件(已存在下)
 -  
-p 保留访问和修改时间,所有权和权限。
 
2.8 HDFS数据删除操作
hdfs dfs -rm -r [-skipTrash] URI [URI ...] 
 
-  
删除指定路径的文件或文件夹
- -skipTrash 跳过回收站,直接删除
 
 
回收站功能默认关闭,如果要开启需要在core-site.xml内配置:
<property><name>fs.trash.interval</name><value>1440</value></property><property><name>fs.trash.checkpoint.interval</name><value>120</value></property>
 
无需重启集群,在哪个机器配置的,在哪个机器执行命令就生效。
回收站默认位置在:/user/用户名(hadoop)/.Trash
其他常用命令可以查看官网文档,这里不在一一介绍,属性Linux系统的话,这些命令都轻车熟路。
3 HDFS客户端-jetbrians产品插件
我们使用DataGrip来安装和配置插件。
3.1 Big Data Tools 安装
打开设置settings->plugins->搜索Big Data Tools->install,如下图所示:

安装之后,重启DataGrip。
3.2 配置windows
需要对Windows系统做一些基础设置,配合插件使用
-  
解压Hadoop安装包到Windows系统,如解压到:E:\gaogzhen\dev\bigdata\hadoop\hadoop-3.3.4
 -  
设置$HADOOP_HOME环境变量指向:E:\gaogzhen\dev\bigdata\hadoop\hadoop-3.3.4
 -  
path中添加
$HADOOP_HOME\bin 
下载
-  
hadoop.dll(https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/hadoop.dll)
 -  
winutils.exe(https://github.com/steveloughran/winutils/blob/master/hadoop-3.0.0/bin/winutils.exe)
 
可以自行下载,或从课程资料中获取
- 将hadoop.dll和winutils.exe放入$HADOOP_HOME/bin中
 
加压报错如下图所示:

这个是Linux系统的软连接,不影响目前的功能,直接关闭即可
3.3 配置Big Data Tools
第一步:打开hdfs配置

第二步:配置hdfs

现在可以以图形化的形式对hdfs进行操作

HDFS客户端,以NFS 挂载客户端的形式自行查阅相关文档,这里不在演示。
结语
如果小伙伴什么问题或者指教,欢迎交流。
❓QQ:806797785
参考链接:
[1]大数据视频[CP/OL].2020-04-16.
