位置：首页-资讯-后端开发

Python爬取三国演义的实现方法

2022-06-04 18:47

短信预约 -IT技能 免费直播动态提醒

本文的爬虫教程分为四部：

1.从哪爬 where

2.爬什么 what

3.怎么爬 how

4.爬了之后信息如何保存 save

一、从哪爬

三国演义

二、爬什么

三国演义全文

三、怎么爬

在Chrome页面打开F12，就可以发现文章内容在节点


<div id="con" class="bookyuanjiao">

只要找到这个节点，然后把内容写入到一个html文件即可。


content = soup.find("div", {"class": "bookyuanjiao", "id": "con"})

四、爬了之后如何保存

主要就是拿到内容，拼接到一个html文件，然后保存下来就可以了。


#!usr/bin/env 
# -*-coding:utf-8 -*-
import urllib2
import os
from bs4 import BeautifulSoup as BS
import locale
import sys
from lxml import etree
import re

reload(sys)
sys.setdefaultencoding('gbk')

sub_folder = os.path.join(os.getcwd(), "sanguoyanyi")
if not os.path.exists(sub_folder):
  os.mkdir(sub_folder)

path = sub_folder

# customize html as head of the articles
input = open(r'0.html', 'r')
head = input.read()

domain = 'http://www.shicimingju.com/book/sanguoyanyi.html'
t = domain.find(r'.html')
new_domain = '/'.join(domain.split("/")[:-2])
first_chapter_url = domain[:t] + "/" + str(1) + '.html'
print first_chapter_url

# Get url if chapter lists
req = urllib2.Request(url=domain)
resp = urllib2.urlopen(req)
html = resp.read()
soup = BS(html, 'lxml')
chapter_list = soup.find("div", {"class": "bookyuanjiao", "id": "mulu"})
sel = etree.HTML(str(chapter_list))
result = sel.xpath('//li/a/@href')

for each_link in result:
  each_chapter_link = new_domain + "/" + each_link
  print each_chapter_link
  req = urllib2.Request(url=each_chapter_link)
  resp = urllib2.urlopen(req)
  html = resp.read()

  soup = BS(html, 'lxml')
  content = soup.find("div", {"class": "bookyuanjiao", "id": "con"})
  title = soup.title.text
  title = title.split(u'_《三国演义》_诗词名句网')[0]

  html = str(content)
  html = head + html + "</body></html>"

  filename = path + "\" + title + ".html"
  print filename
  # write file
  output = open(filename, 'w')
  output.write(html)
  output.close()

0.html的内容如下


<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"></head><body>

总结

以上就是利用Python爬取三国演义的实现方法，希望对大家学习python能有所帮助，如果有疑问大家可以留言交流。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

演义方法 Python

阅读原文内容投诉

Python爬取三国演义的实现方法

下载Word文档到电脑，方便收藏和打印～

下载Word文档

Python爬取三国演义的实现方法

Python爬取三国演义的实现方法

相关文章

猜你喜欢

Python爬取三国演义的实现方法

python数据解析BeautifulSoup爬取三国演义章节示例

Python爬取APP下载链接的实现方法

Python爬虫实现自动化爬取b站实时弹幕的方法

python脚本爬取字体文件的实现方法

Python爬取科目四考试题库的方法实现

python爬虫实战之爬取百度首页的方法

python淘宝爬虫的实现方法教程

使用Post方法模拟登陆爬取网页的实现方法

Python爬虫的两套解析方法和四种爬虫实现

python实现selenium网络爬虫的方法小结

Python三级目录展示的实现方法

python实现下载文件的三种方法

Python随机抽样的三种方法及自定义封装函数实现

JavaScript实现字符串截取的三个方法总结

用python实现零钱找零的三种方法

python 实现多线程的三种方法总结

Python实现抽象基类的3三种方法

Python 用Redis简单实现分布式爬虫的方法

Python实现解析参数的三种方法详解

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复