可以先用local模式读取一下
步骤
一、先将做测试的数据上传到HDFS
cd /export/servers/sparkdatas
hdfs dfs -mkdir -p /sparkwordcount
hdfs dfs -put wordcount.txt /sparkwordcount
二、开发scala代码
sc.textFile("hdfs://node01:8020/sparkwordcount/wordcount.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect
如果不需要查看结果,而是需要将结果存储为文本文件,则将.collect
换成.saveAsTestFile(要存放的Path)
即可
standAlone模式查看HDFS上的文件
步骤
一、退出local模式,重新进入Spark-shell
bin/spark-shell --master spark://node01:7077 /
--executor-memory 1g /
--total-executor-cores 2
二、开发scala代码
sc.textFile("hdfs://node01:8020/sparkwordcount/wordcount.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect
拜师教育学员文章:作者:601-赵同学,
转载或复制请以 超链接形式 并注明出处 拜师资源博客。
原文地址:《【Spark】Spark-shell案例——standAlone模式下读取HDFS上存放的文件》 发布于2020-04-07
评论 抢沙发