位置：首页-资讯-后端开发

怎么在hadoop中实现一个java爬虫

2023-05-31 02:11

短信预约 -IT技能 免费直播动态提醒

今天就跟大家聊聊有关怎么在hadoop中实现一个java爬虫，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

需要用到

Cygwin：一个在windows平台上运行的类UNIX模拟环境，直接网上搜索下载，并且安装；

Hadoop：配置Hadoop环境，实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS，用来将收集的数据直接上传保存到HDFS，然后用MapReduce分析；

Eclipse：编写代码，需要导入hadoop的jar包，以可以创建MapReduce项目；

Jsoup：html的解析jar包，结合正则表达式能更好的解析网页源码；

----->

目录：

1、配置Cygwin

2、配置Hadoop黄静

3、Eclipse开发环境搭建

4、网络数据爬取（jsoup）

-------->

1、安装配置Cygwin

从官方网站下载Cygwin 安装文件，地址：https://cygwin.com/install.html

下载运行后进入安装界面。

安装时直接从网络镜像中下载扩展包，至少需要选择ssh和ssl支持包

安装后进入cygwin控制台界面，

运行ssh-host-config命令，安装SSH

输入：no，yes，ntsec，no，no

注意：win7下需要改为yes，yes，ntsec，no，yes，输入密码并确认这个步骤

完成后会在windows操作系统中配置好一个Cygwin sshd服务，启动该服务即可。

怎么在hadoop中实现一个java爬虫

然后要配置ssh免密码登陆

重新运行cygwin。

执行ssh localhost，会要求使用密码进行登陆。

使用ssh-keygen命令来生成一个ssh密钥，一直回车结束即可。

生成后进入.ssh目录，使用命令：cp id_rsa.pub authorized_keys 命令来配置密钥。

之后使用exit退出即可。

重新进入系统后，通过ssh localhost就可以直接进入系统，不需要再输入密码了。

2、配置Hadoop环境

修改hadoop-env.sh文件，加入JDK安装目录的JAVA_HOME位置设置。

# The java implementation to use. Required.export JAVA_HOME=/cygdrive/c/Java/jdk1.7.0_67

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

java ava hadoop

阅读原文内容投诉

怎么在hadoop中实现一个java爬虫

下载Word文档到电脑，方便收藏和打印～

下载Word文档

怎么在hadoop中实现一个java爬虫

怎么在hadoop中实现一个java爬虫

相关文章

猜你喜欢

怎么在hadoop中实现一个java爬虫

怎么在java中实现一个多线程爬虫

Java中怎么实现一个网络爬虫

怎么在python中使用feapde实现一个爬虫

在Java中使用Jsoup实现一个爬虫功能

node中怎么实现一个http小爬虫

怎么在python中使用selenium实现一个网络爬虫

nodejs中怎么实现一个多页面爬虫

利用java怎么实现一个网页爬虫功能

利用JAVA实现一个多线程爬虫

怎么在python中利用递归实现一个爬虫解析器

基于hadoop的分布式爬虫怎么实现

Java语言怎么实现爬虫

如何在Python中实现一个简单的爬虫程序

java Spring Boot2.7实现一个简单的爬虫功能

java实现一个简单的网络爬虫代码示例

怎么在java中实现一个gc算法

怎么在java中实现一个sleep功能

怎么使用nodejs实现一个简单的网页爬虫功能

怎么在java中实现一个重复注解

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复