我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python爬取51job中hr的邮箱

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python爬取51job中hr的邮箱

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下


#encoding=utf8
import urllib2
import cookielib
import re
import lxml.html
from _ast import TryExcept
from warnings import catch_warnings

f = open('/root/Desktop/51-01.txt','a+')

def read(city):
  url = 'http://www.51job.com/'+city
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  response = urllib2.urlopen(url)
  http = response.read()
  rex = 'http://jobs.51job.com/hot/.*?html'
  value = re.findall(rex, http)
  for i in value:
    print i
    try:
      readpage(i)
    except:
      pass
    
def readpage(url):
  cj = cookielib.MozillaCookieJar() 
  cookie_support = urllib2.HTTPCookieProcessor(cj) 
  opener = urllib2.build_opener(cookie_support) 
  opener.addheaders = [('User-agent','Mozilla/5.0 (X11; Linux x86_64; rv:38.0) Gecko/20100101 Firefox/38.0 Iceweasel/38.3.0')]
  urllib2.install_opener(opener)
  html = urllib2.urlopen(url,timeout = 2).read()
  doc = lxml.html.fromstring(html)
  rex = r'[w.-]+@(?:[A-Za-z0-9]+.)+[A-Za-z]+'
  results = doc.xpath('//div[@class="tmsg inbox"]/div[@class="con_msg"]/div[@class="in"]/p/text()')
  for i in results:
    xx = re.compile(rex)
    for j in xx.findall(i):
      print j
      f.write(j+'n')
      f.flush()
  

if __name__ == '__main__':
  city_list = ['zhangjiagang','zhanjiang','zhaoqing','zibo']
  for i in city_list:
    f.write(i+'n')
    f.flush()
    try:
      read(i)
    except:
      pass
  f.flush()
  f.close()

city_list大家自己整理一下,只能帮你们到这里了,谢谢大家的阅读,继续关注编程网更多精彩内容。

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python爬取51job中hr的邮箱

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python爬取51job中hr的邮箱

本文实例为大家分享了python爬取51job中hr的邮箱具体代码,供大家参考,具体内容如下#encoding=utf8 import urllib2 import cookielib import re import lxml.html
2022-06-04

Python读取邮箱中的邮件,含文本,附

#-*- encoding: utf-8 -*-import sysimport localeimport poplibfrom email import parserimport emailimport string# 确定运行环境的en
2023-01-31

java抓取网页或文件中的邮箱号码

本文实例为大家分享了java抓取邮箱号码的具体代码,供大家参考,具体内容如下java抓取文件中邮箱号码的具体代码package reg;import java.io.BufferedReader;import java.io.FileNot
2023-05-31

如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号

本篇文章给大家分享的是有关如何使用Python编写多线程爬虫抓取百度贴吧邮箱与手机号,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。不知道大家过年都是怎么过的,反正栏主是在家睡了
2023-06-17

Python爬虫如何爬取网页中所有的url

这篇文章主要介绍Python爬虫如何爬取网页中所有的url,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!python可以做什么Python是一种编程语言,内置了许多有效的工具,Python几乎无所不能,该语言通俗易懂
2023-06-14

python读取eml文件并用正则表达式匹配邮箱的代码

今天接到一个需求有一个同事离职了,但是留下了非常多的邮件,我需要将他的邮件进行分类,只要邮件中以@xxx.com结尾的存放在文件夹中,否则放在另一个文件夹中,这篇文章主要介绍了python读取eml文件并用正则匹配邮箱,需要的朋友可以参考下
2022-11-13

Python中怎么读取Outlook的电子邮件

这篇文章给大家介绍Python中怎么读取Outlook的电子邮件,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。首先你需要导入 win32com.client,为此你需要安装 pywin32:pip install py
2023-06-17

Python中如何爬取sexy的福利图片

本篇文章给大家分享的是有关Python中如何爬取sexy的福利图片,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。前言各位老..司...小可爱们,大家好呀,相信大家的第一次爬虫是
2023-06-02

python中使用XPath爬取小说的方法

这篇“python中使用XPath爬取小说的方法”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“python中使用XPath爬
2023-06-30

python怎么在爬虫中取元素里的值

在爬虫中取元素的值有多种方法,下面是几种常用的方法:使用正则表达式:可以使用re模块的findall()函数来匹配元素的值。例如,假设要取出HTML页面中所有的链接,可以使用以下代码:import rehtml = "
python怎么在爬虫中取元素里的值

Python中如何爬取中医药网站中药的信息

这篇文章给大家介绍Python中如何爬取中医药网站中药的信息,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。现在我们90后很多人都步入了养生状态,开始泡枸杞红枣了,哈哈,经常在朋友圈里面看到,这是不是对自己的一种调侃呢,
2023-06-02

Python爬取网页中的图片(搜狗图片)详解

前言 最近几天,研究了一下一直很好奇的爬虫算法。这里写一下最近几天的点点心得。下面进入正文: 你可能需要的工作环境:Python 3.6官网下载本地下载 我们这里以sogou作为爬取的对象。 首先我们进入搜狗图片http://pic.sog
2022-06-04

Python爬取qq music中的音乐url及批量下载

前言 qq music上的音乐还是不少的,有些时候想要下载好听的音乐,但有每次在网页下载都是烦人的登录什么的。于是,来了个qqmusic的爬虫。至少我觉得for循环爬虫,最核心的应该就是找到待爬元素所在url吧。下面开始找吧(讲的不对不要笑
2022-06-04

Python中如何爬取每一个歌单中的歌曲列表

本篇文章给大家分享的是有关Python中如何爬取每一个歌单中的歌曲列表,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。今天为大家介绍一个爬取网易云音乐每一个歌单中的歌曲汇总,你想
2023-06-02

Python项目实战:爬取QQ音乐中的付费歌曲

前言相信大家都很喜欢听音乐,在各种音乐平台上,今天为大家介绍一个利用Python爬取QQ付费音乐的案列,欢迎大家一起学习,一起交流,共同进步导入第三方库
2023-06-02

python中如何爬取汽车之家网站上的图片

这篇文章主要介绍了python中如何爬取汽车之家网站上的图片,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。python的数据类型有哪些?python的数据类型:1. 数字类型
2023-06-14

Python爬虫中自动爬取某车之家各车销售数据的示例分析

这篇文章主要介绍Python爬虫中自动爬取某车之家各车销售数据的示例分析,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!一、目标网页分析目标网站是某车之家关于品牌汽车车型的口碑模块相关数据,比如我们演示的案例奥迪Q5L
2023-06-15

Python中如何用最简单的办法爬取最好看的图片

这篇文章给大家介绍Python中如何用最简单的办法爬取最好看的图片,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。前言接下来我们一个很基本的BeautifulSoup爬虫库来写一下爬取图片的过程,下载并存储图片,相信大家
2023-06-02

python中如何爬取并下载进击的巨人全集视频

这篇文章给大家分享的是有关python中如何爬取并下载进击的巨人全集视频的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。Python主要用来做什么Python主要应用于:1、Web开发;2、数据科学研究;3、网络爬
2023-06-14

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录