我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python爬取小说

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python爬取小说

这次爬虫并没有遇到什么难题,甚至没有加header和data就直接弄到了盗版网站上的小说,真是大大的幸运。

所用模块:urllib,re

主要分三个步骤:

(1)分析小说网址构成;

(2)获取网页,并分离出小说章节名和章节内容;

(3)写入txt文档。

#-*-coding:GBK-*-
#author:zwg
'''
爬取某小说网站的免费小说
'''
import urllib
import urllib2
import re
url='http://www.bxwx8.org/b/8/8987/2093383.html'
url1='http://www.bxwx8.org/b/8/8987/2093%d.html'
def gethtml(url):
    page=urllib.urlopen(url)
    html=page.read()
    return html
def get_name_content(html):
    re1=re.compile('<title>.+?</title>')
    re2=re.compile('<div id="content"><div id="adright">.+?</div>')
    s1=re1.findall(html)
    s2=re2.findall(html)
    if len(s1)>0 and len(s2)>0:
        name=s1[0].replace('<title>','')
        name=name.replace('TXT下载-笔下文学</title>','')
        content=s2[0].replace('''<div id="content"><div id="adright">''','')
        content=content.replace('</div>','')
        content=content.replace('<br /><br />    ','\n\t')
        content = content.replace('    ', '')
    else:
        name=' '
        content=' '
    return name,content
def write_novel(i,file1):
    file1.writelines('\n\r')
    s=383+i;
    html = gethtml(url1 % s)
    name,content = get_name_content(html)
    file1.writelines(name)
    file1.writelines('\n\t')
    file1.writelines(content)
    file1.writelines('\n\n\n')

file1=file('间客.txt','w+')
[write_novel(i,file1) for i in range(50)]
file1.close()


好了,不说了,我要看小说去了,Bye。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python爬取小说

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python爬取小说

这次爬虫并没有遇到什么难题,甚至没有加header和data就直接弄到了盗版网站上的小说,真是大大的幸运。所用模块:urllib,re主要分三个步骤:(1)分析小说网址构成;(2)获取网页,并分离出小说章节名和章节内容;(3)写入txt文档
2023-01-31

python 爬取全本免费小说网的小说

这几天朋友说想看电子书,但是只能在网上看,不能下载到本地后看,问我有啥办法?我找了好几个小说网址看了下,你只能直接在网上看,要下载txt要冲钱买会员,而且还不能在浏览器上直接复制粘贴。之后我就想到python的爬虫不就可以爬取后下载吗?  
2023-01-30

python 爬取国内小说网站

目录原理先行实践篇完整代码原理先行作为一个资深的小说爱好者,国内很多小说网站如出一辙,什么 *阁啊等等,大都是 get 请求返回 html 内容,而且会有标志性的
等标签。 所以大概的原理,就是先 get 请求这个网站,然后对
2022-06-02

python怎么爬取小说内容

在Python中,可以使用`requests`库发送HTTP请求,并使用`BeautifulSoup`库解析HTML页面,从而爬取小说内容。下面是一个简单的示例代码:```pythonimport requestsfrom bs4 impo
2023-10-10

怎么用python爬取小说内容

使用Python爬取小说内容,可以使用requests库发送HTTP请求获取小说网站的HTML内容,然后使用BeautifulSoup库解析HTML,并提取出小说的章节链接。再次使用requests库发送HTTP请求获取每个章节的HTML内
2023-09-12

Python的scrapy之爬取6毛小说

闲来无事想看个小说,打算下载到电脑上看,找了半天,没找到可以下载的网站,于是就想自己爬取一下小说内容并保存到本地圣墟 第一章 沙漠中的彼岸花 - 辰东 - 6毛小说网  http://www.6mao.com/html/40/40184/1
2023-01-30

python中怎么使用XPath爬取小说

这篇文章将为大家详细讲解有关python中怎么使用XPath爬取小说,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。python的五大特点是什么python的五大特点:1.简单易学,开发程序时,专注的是解决
2023-06-14

python中使用XPath爬取小说的方法

这篇“python中使用XPath爬取小说的方法”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“python中使用XPath爬
2023-06-30

使用PyCharm怎么爬取小说

使用PyCharm怎么爬取小说?针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。爬取小说的思路: 1.获取小说地址本文以搜书网一小说为例《嘘,梁上有王妃!》目录网址:https
2023-06-14

python爬虫之小说网站--下载小说(

python爬虫之小说网站--下载小说(正则表达式)思路:1.找到要下载的小说首页,打开网页源代码进行分析(例:https://www.kanunu8.com/files/old/2011/2447.html)2.分析自己要得到的内容,首先
2023-01-30

Python scrapy爬取起点中文网小说榜单

一、项目需求 爬取排行榜小说的作者,书名,分类以及完结或连载 二、项目分析 目标url:“https://www.qidian.com/rank/hotsalesstyle=1&page=1”通过控制台搜索发现相应信息均存在于html静态网
2022-06-02

Python制作爬虫采集小说

开发工具:python3.4 操作系统:win8 主要功能:去指定小说网页爬小说目录,按章节保存到本地,并将爬过的网页保存到本地配置文件。 被爬网站:http://www.cishuge.com/ 小说名称:灵棺夜行 代码出处:本人亲自码的
2022-06-04

python爬取小视频

python爬取小视频记录学习python简单爬虫小程序,记录代码和学习过程环境信息python 2.7.12分析与步骤要分析网站信息 http://www.budejie.com/video/查看网页不同页面的信息: http://www
2023-01-31

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录