Spark Streaming监听HDFS文件（Spark-shell）

人弧 · 2025-6-10 16:33:50

需求：编写程序利用Spark Streaming 监控HDFS 目录/input目录下的文件，并对上传的文件进行词频统计。

首先，linux中需要有netcat，来实现监听功能，有的linux会自带这个软件，可以用下面的命令测试一下，如果不报错就没问题，Ctrl+z可以退出

复制代码

没有netcat的可以用这个来下载，如果下载失败应该是镜像配置问题，报错信息复制粘贴浏览器照着改一下就好了

复制代码

登录Linux系统后，启动spark-shell。进入spark-shell以后，就已经获得了一个默认的SparkConext，也就是sc。因此，可以采用如下方式来创建StreamingContext对象：

复制代码

设置了20s检查一次

复制代码

新开一个linux终端窗口，往HDFS里面传一个文件，这是内容

回到了之前的Spark-Shell窗口，看到了结果,非常的简单

退出监听（感觉不好用）

复制代码

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

姚梨素 · 6 天前

感谢分享

账号		自动登录	找回密码
密码			立即注册

回复