我的编程空间,编程开发者的网络收藏夹
学习永远不晚

我用Python爬取了李沧最近一年多的二

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

我用Python爬取了李沧最近一年多的二

前言

去年年底,博主有购房的意愿,本来是打算在青岛市北购房,怎奈工作变动,意向转移到了李沧,坐等了半年以后,最终选择在红岛附近购置了期房。

也许一些知道青岛红岛的小伙伴会问我,为什么会跑到那鸟不拉屎的地方去买房子,目前只能是一个字:"赌、赌、赌",重要的事情说三遍。下面来分析一下,我为什么没有在李沧买。

爬取数据

爬取了2018年1月份到2019年3月底李沧二手房成交记录,数据仅限于链家,不代表李沧地区的全部数据,但是我觉得应该对大家有一定的参考意义。

创建基本的数据库:

CREATE TABLE `house` (
   `id` int(10) unsigned NOT NULL AUTO_INCREMENT COMMENT '主键',
   `url` varchar(50) NOT NULL COMMENT '网络访问地址',
   `listed_price` double NOT NULL COMMENT '挂牌价格',
   `completion_date` date NOT NULL COMMENT '成交日期',
   `transaction_cycle` int(11) NOT NULL COMMENT '成交周期',
   `modify_price` int(11) NOT NULL COMMENT '调价次数',
   `square_metre` double NOT NULL COMMENT '建筑面积',
   `unit_price` double NOT NULL COMMENT '单价',
   `total_price` double NOT NULL COMMENT '总价',
   `age_completion` int(11) NOT NULL COMMENT '建成年代',
   `community_name` varchar(50) NOT NULL COMMENT '所在小区',
   PRIMARY KEY (`id`)
 ) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8

爬取代码:

__author__ = "小柒"
__blog__ = "https://blog.52itstyle.vip/"
import requests
import time
# 导入文件操作库
import os
import re
import bs4
from bs4 import BeautifulSoup
import sys
from util.mysql_DBUtils import mysql


# 写入数据库
def write_db(param):
    try:
        sql = "insert into house (url,listed_price,transaction_cycle,modify_price," \
              "square_metre,unit_price,total_price,age_completion,community_name,completion_date) "
        sql = sql + "VALUES(%(url)s,%(listed_price)s, %(transaction_cycle)s,%(modify_price)s,"
        sql = sql + "%(square_metre)s,%(unit_price)s,%(total_price)s," \
                    "%(age_completion)s,%(community_name)s,%(completion_date)s)"
        mysql.insert(sql, param)
    except Exception as e:
        print(e)


# 主方法
def main():
    # 给请求指定一个请求头来模拟chrome浏览器
    headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 '
                             '(KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36'}
    page_max = 24
    # 爬取地址
    for i in range(1, int(page_max) + 1):
        print("第几页:" + str(i))
        if i == 1:
            house = 'https://qd.lianjia.com/chengjiao/licang/'
        else:
            house = 'https://qd.lianjia.com/chengjiao/licang/pg'+str(i)
        res = requests.get(house, headers=headers)
        soup = BeautifulSoup(res.text, 'html.parser')
        li_max = soup.find('ul', class_='listContent').find_all('li')
        for li in li_max:
            try:
                house_param = {}
                # 所在小区
                community = li.find('div', class_='title').text
                community_name = community.split(" ")[0]
                house_param['community_name'] = community_name
                # 成交地址
                title_class="lazy" data-src = li.find('a').attrs['href']
                house_param['url'] = title_class="lazy" data-src
                res = requests.get(title_class="lazy" data-src, headers=headers)
                soup = BeautifulSoup(res.text, 'html.parser')
                # --------------------------------------------------------#
                # 成交日期
                completion_date = soup.find('div', class_='house-title').find('span').text
                completion_date = completion_date.split(" ")[0]
                completion_date = completion_date.replace(".", "-")
                house_param['completion_date'] = completion_date
                # 挂牌价格
                listed_price = soup.find('div', class_='msg').find_all('span')[0].find('label').text
                house_param['listed_price'] = listed_price
                # 成交周期
                transaction_cycle = soup.find('div', class_='msg').find_all('span')[1].find('label').text
                house_param['transaction_cycle'] = transaction_cycle
                # 调价次数
                modify_price = soup.find('div', class_='msg').find_all('span')[2].find('label').text
                house_param['modify_price'] = modify_price
                # 建筑面积
                square_metre = soup.find('div', class_='content').find("ul").find_all('li')[2].text
                square_metre = re.findall(r'-?\d+\.?\d*e?-?\d*?', square_metre)[0]
                house_param['square_metre'] = square_metre
                # 总价
                total_price = soup.find('span', class_='dealTotalPrice').find('i').text
                house_param['total_price'] = total_price
                # 单价
                unit_price = soup.find('b').text
                house_param['unit_price'] = unit_price
                # 建筑年代
                age_completion = soup.find('div', class_='content').find("ul").find_all('li')[7].text
                age_completion = re.findall(r'-?\d+\.?\d*e?-?\d*?', age_completion)[0]
                house_param['age_completion'] = age_completion
                write_db(house_param)
            except Exception as e:
                print(e)
        mysql.end("commit")
    mysql.dispose()


if __name__ == '__main__':
    main()

通过数据爬取,一共找到了706套二手成交房。

分析数据

直奔主题,数据分析下,大家比较关心的价格问题,以下是2019年1月-3月的二手房成交量以及成交价格:

位置 成交量 单价
李沧 124 21100

同比去年的二手房成交量以及成交价格:

位置 成交量 单价
李沧 277 21306

吓的博主赶紧用计算器认认真真,仔仔细细的核算了三遍,才敢写下这几个数字,同比去年,单价整整降了206人民币,此处有掌声。再看一下成交量,相比去年少了足足一半之多,相信那124套房子也是卖家忍痛降了206人民币才卖出去的吧!

好了,再看一下大家比较关心的成交周期,2019年1月-3月的二手房成交量以及成交周期:

位置 成交量 成交周期(天)
李沧 124 96

同比去年的二手房成交量以及成交周期:

位置 成交量 成交周期(天)
李沧 277 83

不得不说,相比去年房子的确是难卖了。

小结

很多同事,同学,13、14年就已经上车了,那时李沧1w不到,再看看现在?不想看,没眼看,不能看。最终没在李沧买房,也不是买不起,只是看不到降的希望,相对压力又大一些,而且,也不想把家庭所有的积蓄都赌在这里。

最后,对于刚需就是一个建议,买早买,有房和没房看一个城市是不一样的,努力赚钱的最大意义就是提升你的幸福感。活在人间不食人间烟火?真以为自己是神仙?有些东西一说的实际一点真的是会伤到某些人的心,祝你们用键盘战胜一切。

相关代码:https://gitee.com/52itstyle/Python

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

我用Python爬取了李沧最近一年多的二

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

我用Python爬取了李沧最近一年多的二

前言去年年底,博主有购房的意愿,本来是打算在青岛市北购房,怎奈工作变动,意向转移到了李沧,坐等了半年以后,最终选择在红岛附近购置了期房。也许一些知道青岛红岛的小伙伴会问我,为什么会跑到那鸟不拉屎的地方去买房子,目前只能是一个字:"赌、赌、赌
2023-01-31

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录