Hadoop经典案例——单词统计

通过 Hadoop经典案例——单词统计,来演示 Hadoop集群的简单使用。

(1)打开 HDFS 的 UI,选择Utilities→Browse the file system查看分布式文件系统里的数据文件,可以看到新建的HDFS上没有任何数据文件。
Hadoop经典案例——单词统计_第1张图片
Hadoop经典案例——单词统计_第2张图片
Hadoop经典案例——单词统计_第3张图片
Hadoop经典案例——单词统计_第4张图片
(2)先在集群主节点namenode上的/export/data/目录下,执行“vi word. txt”指令新建一个 word. txt文本文件,并编写一些单词内容。

[root@namenode data]# vi word.txt

Hadoop经典案例——单词统计_第5张图片
Hadoop经典案例——单词统计_第6张图片
Hadoop经典案例——单词统计_第7张图片
Hadoop经典案例——单词统计_第8张图片
接着,在 HDFS 上创建/wordcount/input目录,并将 word. txt文件上传至该目录下,具体指令如下所示:

[root@namenode /]# hadoop fs -mkdir -p /wordcount/input

Hadoop经典案例——单词统计_第9张图片
上述指令是Hadoop提供的进行亡件系统操作的HDFS Shell相关指令,此处不必深究具体使用,在下一章会进行详细说明。执行完上状指公后,再次奋看HDFS 的 UI,会发现/wordcount/input目录创建成功并上传了指定的 word.txt文件
Hadoop经典案例——单词统计_第10张图片
(3)进入 Hadoop解压包中的/share/hadoop/mapreduce/目录下,使用ll指令查看文件夹内容。

[root@namenode /]# hadoop fs -put /export/data/word.txt /wordcount/input

Hadoop经典案例——单词统计_第11张图片
Hadoop经典案例——单词统计_第12张图片

[root@namenode /]# cd /export/servers/hadoop-2.7.3/share/hadoop/mapreduce
[root@namenode mapreduce]# ll

Hadoop经典案例——单词统计_第13张图片 从上图可以看出,在该文件夹下自带了很多Hadoop 的 MapReduce示例程序。其中,hadoop-mapreduce-examples-2.7.3.jar包中包含了计算单词个数、计算Pi值等功能。
因此,这里可以直接使用hadoop-mapreduce-examples-2.7.3.jar示例包,对 HDFS上的word. txt文件进行单词统计,来进行此次案例的演示,在jar包位置执行如下指令。

[root@namenode mapreduce]# hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /wordcount/input /wordcount/output

Hadoop经典案例——单词统计_第14张图片
Hadoop经典案例——单词统计_第15张图片
上述指令中, hadoop jar hadoop-mapreduce-examples-2.7.3.jar表示执行一个 Hadoop的jar包程序;wordcount表示执行jar包程序中的单词统计功能;/wordcount/input表示进行单词统计的 HDFS文件路径;/wordcount/output表示进行单词统计后的输出HDFS 结果路径。
执行完上述指令后,示例包中的MapReduce程序开始运行,此时可以通过 YARN 集群的UI查看运行状态。
Hadoop经典案例——单词统计_第16张图片
从上图可以看出,MapReduce程序执行成功后,在 HDFS 上自动创建了指定的结果目录/wordcount/output,并且输出了_SUCCESS 和 part-r-00000结果文件。其中_SUCCESS文件用于表示此次任务成功执行的标识,而part-r-00000表示单词统计的结果。
Hadoop经典案例——单词统计_第17张图片
接着,就可以单击下载图中的 part-r-00000结果文件到本地操作系统,并使用文工具(EditPlus、 Nodepad++ 、记事本等)打开该文件,由下图可以看出,MapReduce示例程序成功统计出了/wordcount/input/word. txt本中的单词数量,并进行了结果输出。
Hadoop经典案例——单词统计_第18张图片
Hadoop经典案例——单词统计_第19张图片
Hadoop经典案例——单词统计_第20张图片
从HDFS中删除文件夹命令

hadoop fs -rm -r /wordcount

Hadoop经典案例——单词统计_第21张图片

你可能感兴趣的