我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python数据分析之公交IC卡刷卡分析

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python数据分析之公交IC卡刷卡分析

一、背景

交通大数据是由交通运行管理直接产生的数据(包括各类道路交通、公共交通、对外交通的刷卡、线圈、卡口、GPS、视频、图片等数据)、交通相关行业和领域导入的数据(气象、环境、人口、规划、移动通信手机信令等数据),以及来自公众互动提供的交通状况数据(通过微博、微信、论坛、广播电台等提供的文字、图片、音视频等数据)构成的。

现在给出了一个公交刷卡样例数据集,包含有交易类型、交易时间、交易卡号、刷卡类型、线路号、车辆编号、上车站点、下车站点、驾驶员编号、运营公司编号等。试导入该数据集并做分析。

二、任务要求

1.分别计算早上7点前和晚上10点之后的公共交通上车刷卡量;

2.绘制并输出当天各小时公交刷卡量变化的折线图;

3.构造一个乘客搭乘时间分析函数,计算各小时区间乘客的平均公交搭乘时间及其标准差;

4.绘制并输出不同类型的一卡通交易数量及其占比的饼图;

5.分别构造线路类、司机类和车辆类,将线路编号1101–1120的线路及其所对应的司机和车辆信息输出为20个txt文档,并保存到一个文件夹中;

6.分析搭载乘客情况,确定服务乘客人次最多的10个司机、10条线路和10台车辆。

三、使用步骤

1.引入库

代码如下:


from numpy import *
import pandas as pd
import matplotlib.pyplot as plt
from collections import Counter

2.导入数据

代码如下:


# 导入csv文件
ICdata = pd.read_csv('D:/人工智能编程语言/Python - 作业4/ICData.csv', sep=',', encoding='utf-8')

3.任务一

代码如下:


# 1.分别计算早上7点前和晚上10点之后的公共交通上车刷卡量;
ICdata['交易时间'] = pd.to_datetime(ICdata['交易时间'], format='%Y/%m/%d %H:%M:%S')  # 将字符串类型转换为datetime类型
paytime1 = ICdata[ICdata.交易时间 < '2018/4/1 07:00:00']
paytime2 = ICdata[ICdata.交易时间 > '2018/4/1 22:00:00']
print('早上七点前的刷卡量为:', paytime1.交易时间.count())  # 输出在早上七点前的刷卡量
print('晚上十点后的刷卡量为:', paytime2.交易时间.count())  # 输出在晚上十点后的刷卡量
print('\n')

输出:

在这里插入图片描述

4.任务二

代码如下:


# 2.绘制并输出当天各小时公交刷卡量变化的折线图
timetable = []
ICdata['hour'] = ICdata['交易时间'].dt.hour  # 加多一列hour,并赋值为标准数据里的小时
time = ICdata.groupby(['hour']).count()  # 通过data.groupby(‘hour').count()按小时进行分组,并统计数目
timetable = time.iloc[:, 2]  # 取出一列数据
timetable.plot()  # 画出折线图
plt.rcParams['font.sans-serif'] = ['SimHei']  # 防止中文输出出现乱码
plt.title('当天内各小时刷卡量')  # 设置总标题
plt.xlabel('Hour')  # 设置x坐标标题
plt.ylabel('Amount')  # 设置y坐标标题
plt.show()  # 展示折线图
del ICdata['hour']  # 将hour列删除

输出:

在这里插入图片描述

5.任务三

代码如下:


# 3.定义一个计算乘客搭乘时间平均数和标准差的函数
def fun_time(x):
    time_list = []
    ICdata['hour'] = ICdata['交易时间'].dt.hour  # 加多一列hour,并赋值为标准数据里的小时
    t = list(ICdata['hour'])  # 将hour列取出并转换为列表
    for i in range(200000):
        if t[i] == x:   # 记录该小时内乘客的搭乘时间
            time_list.append(abs(ICdata['上车站点'][i]-ICdata['下车站点'][i]))
    aver = mean(time_list)  # 计算平均数
    std_t = std(time_list)  # 计算标准差
    print(x, '时内乘客搭乘的平均时间为:%.3f站 ' % aver, '标准差为:%.3f站' % std_t)
    print('\n')

# 函数实现:
a = int(input("请输入一个整数代表该小时:"))
fun_time(a)  # 调用fun_time函数,传入参数a

输出:

在这里插入图片描述

6.任务四

代码如下:


# 4.绘制并输出不同类型的一卡通交易数量及其占比的饼图
count = Counter(ICdata.iloc[:, 0])  # 统计各刷卡类型总数
list_key = []  # 创建列表存储刷卡类型
list_value = []  # 创建列表存储刷卡总数量
print('不同类型的一卡通交易数量:')
for key, value in count.items():  # 将counter类型元素分别提取到两个列表内
    list_key.append(key)
    list_value.append(value)
    print('%5d' % key, ':', value)  # 输出刷卡类型及对应数量
print('\n')
plt.figure(figsize=(6, 6), dpi=100)  # 创建画布
colors = ['b', 'r', 'g', 'y']  # 设置颜色
plt.pie(list_value, labels=list_key, autopct='%1.2f%%',
        colors=colors, shadow=True, startangle=150)
# autopct='%1.2f%%' 保留2位小数
# shadow=True,startangle=150 设置阴影,角度为150度
plt.legend()  # 显示图例
plt.axis('equal')  # 为了让显示的饼图保持圆形,需要添加axis保证长宽一样
plt.title('不同类型的一卡通交易数占比的饼图')  # 添加标题
plt.show()

输出:

在这里插入图片描述

7.任务五

代码如下:


# 5.分别构造线路类、司机类和车辆类,将线路编号1101–1120的线路及其所对应的司机和
#   车辆信息输出为20个txt文档,并保存到一个文件夹中;
list_line=[]
for i in range(1101,1121):  # 将20条线路的名称存进列表里
    list_line.append(i)
class Driver:      # 构造司机类
    def __init__(self,driver):
        self.driver = driver
class Bus:         # 构造公交类
    def __init__(self,bus):
        self.bus = bus
class Line:        # 构造线路类
    def __init__(self):  # 因为要根据线路得知司机和公交的信息,因此在线路类
        self.driver=[]   # 里添加两个列表分别存入司机和公交的信息
        self.bus=[]
    def add_driver(self,x):
        self.driver.append(x)
    def add_bus(self,y):
        self.bus.append(y)

line_class=[]  # 列表存20条线路对应的对象
for i in range(1101,1121):
    l=Line()  # 一条线路创建一个对象
    for j in range(200000):
        if ICdata['线路号'][j]==i:  # 将对应线路的司机和公交信息存入该线路对象内
            l.add_driver(ICdata['车辆编号'][j])
            l.add_bus(int(ICdata['驾驶员编号'][j]))
    line_class.append(l)
basepath='D:/人工智能编程语言/task4/road_line/Line'  # 确定txt文件存入的路径
for i in range(20):
    full_path=basepath+str(list_line[i])+'.txt'  # 加上文件名和后缀
    file=open(full_path,'w',encoding='UTF-8')  # 创建txt文件,只写
    file.write('车辆编号')
    file.write('  ')
    file.write('驾驶员编号\n')
    for j in range(len(line_class[i].driver)):  # 将对应线路的信息写入txt文件内
        file.write(str(line_class[i].driver[j]))
        file.write('     ')
        file.write(str(line_class[i].bus[j]))
        file.write('\n')
    file.close()

输出:

在这里插入图片描述
在这里插入图片描述

8.任务六

代码如下:


# 6.分析搭载乘客情况,确定服务乘客人次最多的10个司机、10条线路和10台车辆。
drivers = Counter(ICdata.iloc[:, 8])  # 取出对应列并统计每个元素出现的次数
a=(drivers.most_common(10))   # 将前十个元素及出现的次数存入列表a内
print('服务人次最多的前十名司机及服务人数:')
for i in range(10):
    print('%-8d'% int(a[i][0]),':','%-10d'% a[i][1])
lines = Counter(ICdata.iloc[:, 4])
b=(lines.most_common(10))
print('服务人次最多的前十条线路及服务人数:')
for i in range(10):
    print('%-8d'% int(b[i][0]),':','%-10d'% b[i][1])
buses = Counter(ICdata.iloc[:, 5])
c=(buses.most_common(10))
print('服务人次最多的前十辆公交及服务人数:')
for i in range(10):
    print('%-8d'% int(c[i][0]),':','%-10d'% c[i][1])

输出:

在这里插入图片描述
在这里插入图片描述

四、总结

加深了对numpy,pandas和matplotlib等第三方应用库的使用。

到此这篇关于python数据分析之公交IC卡的文章就介绍到这了,更多相关python公交IC卡内容请搜索编程网以前的文章或继续浏览下面的相关文章希望大家以后多多支持编程网!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python数据分析之公交IC卡刷卡分析

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python数据分析之pandas数据选

Pandas是作为Python数据分析著名的工具包,提供了多种数据选取的方法,方便实用。本文主要介绍Pandas的几种数据选取的方法。  Pandas中,数据主要保存为Dataframe和Series是数据结构,这两种数据结构数据选取的方式
2023-01-30

Python数据分析库之pandas,你

写这个系列背后的故事咦,面试系列的把基础部分都写完啦,哈哈答,接下来要弄啥嘞~pandas吧外国人开发的翻译成汉语叫 熊猫厉害厉害,很接地气一个基于numpy的库干啥的?做数据分析用的而数据分析是python体系下一个非常庞大的分支厉害到,
2023-01-31

Python数据分析之pandas读取数据

一、三种数据文件的读取二、csv、tsv、txt 文件读取 1)CSV文件读取: 语法格式:pandas.read_csv(文件路径) CSV文件内容如下:import pandas as pd file_path = "e:\\panda
2022-06-02

Python数据分析之绘图和可视化的示例分析

小编给大家分享一下Python数据分析之绘图和可视化的示例分析,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!一、前言matplotlib是一个用于创建出版质量图表
2023-06-15

Python数据分析:数据驱动成功之路

数据分析是信息时代的关键技能,而 Python 已成为数据分析领域不可或缺的工具。Python 提供了广泛的库和工具,使数据探索、建模和可视化变得容易,为数据驱动决策和成功铺平了道路。
Python数据分析:数据驱动成功之路
2024-02-17

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录