Python爬取小说
短信预约 -IT技能 免费直播动态提醒
这次爬虫并没有遇到什么难题,甚至没有加header和data就直接弄到了盗版网站上的小说,真是大大的幸运。
所用模块:urllib,re
主要分三个步骤:
(1)分析小说网址构成;
(2)获取网页,并分离出小说章节名和章节内容;
(3)写入txt文档。
#-*-coding:GBK-*-
#author:zwg
'''
爬取某小说网站的免费小说
'''
import urllib
import urllib2
import re
url='http://www.bxwx8.org/b/8/8987/2093383.html'
url1='http://www.bxwx8.org/b/8/8987/2093%d.html'
def gethtml(url):
page=urllib.urlopen(url)
html=page.read()
return html
def get_name_content(html):
re1=re.compile('<title>.+?</title>')
re2=re.compile('<div id="content"><div id="adright">.+?</div>')
s1=re1.findall(html)
s2=re2.findall(html)
if len(s1)>0 and len(s2)>0:
name=s1[0].replace('<title>','')
name=name.replace('TXT下载-笔下文学</title>','')
content=s2[0].replace('''<div id="content"><div id="adright">''','')
content=content.replace('</div>','')
content=content.replace('<br /><br /> ','\n\t')
content = content.replace(' ', '')
else:
name=' '
content=' '
return name,content
def write_novel(i,file1):
file1.writelines('\n\r')
s=383+i;
html = gethtml(url1 % s)
name,content = get_name_content(html)
file1.writelines(name)
file1.writelines('\n\t')
file1.writelines(content)
file1.writelines('\n\n\n')
file1=file('间客.txt','w+')
[write_novel(i,file1) for i in range(50)]
file1.close()
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341