我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python使用Faker库进行生成模拟mock数据(基本使用+五个小案例)

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python使用Faker库进行生成模拟mock数据(基本使用+五个小案例)

使用faker进行生成模拟(mock))数据

文章目录


当我们要进行一些数据可视化的制作时,数据是必备的,但当我们手头没有真实数据又没有时间和精力去kaggle或其他网站收集数据时,且数据真实性不是特别需要时,我们可以使用faker库来进行数据的mock操作。

这就不需要爬虫去爬取真实数据,也不需要使用别人制作的API接口了!

一、Faker库安装

使用命令:

pip install Faker

进行安装

二、Faker库基本介绍

在使用Faker库之前需要有两部操作来导入和实例化。

导入Faker库

from faker import Faker

实例化Faker对象

fake = Faker()

基本函数介绍

以下是Faker库的一些常用功能和语法:

  • 生成随机姓名:faker.name()
  • 生成随机地址:faker.address()
  • 生成随机电子邮件地址:faker.email()
  • 生成随机手机号码:faker.phone_number()
  • 生成随机日期:faker.date()
  • 生成随机时间:faker.time()
  • 生成随机文本块:faker.text()

Faker库还提供了很多其他的功能,比如生成随机公司名称、随机颜色、随机银行卡号等等。你可以参考Faker库的官方文档来进行更深入的学习和使用。

https://faker.readthedocs.io/en/master/

三、案例1:Faker库生成核酸数据

一般我们使用Faker生成数据,使用pandas、csv或openpyxl等操作excel或csv的库将生成的数据写入。
在这里插入图片描述

根据场景,我们可以使用random_element来结合实际去进行生成。

fake.random_element(elements=('文化社区', '中心社区', '枫桥社区', '花园社区','棉织社区','站前社区'))

这里我在网上找了本溪市的街道名和社区名进行随机生成。

from faker import Fakerfrom openpyxl import Workbook# 创建实例fake = Faker(locale='zh_CN')# 定义表头headers = ['序号', '市', '区', '街道', '社区', '采集地点', '采集管号', '身份证号', '姓名', '性别', '电话', '住址',           '年龄', '类别', '备注', '采集时间', '采集人姓名', '采集人电话', '标本类型', '接收实验室', '检测时间', '人员关系', '箱号']# 生成数据并写入Excelwb = Workbook()ws = wb.activews.append(headers)for i in range(1, 3000):    row_data = [        i,        '本溪市',        fake.random_element(elements=('平山区', '溪湖区', '明山区', '南芬区')),        fake.random_element(elements=('南地街道','工人街道','平山街道','东明街道','崔东街道','北台街道','河西街道','北地街道','石桥子街道','桥头街道','金山街道','高峪街道','东兴街道','新明街道','牛心台街道','卧龙街道','火连寨街道')),        fake.random_element(elements=('文化社区', '中心社区', '枫桥社区', '花园社区','棉织社区','站前社区')),        fake.building_number(),        fake.random_int(min=100000000, max=999999999),        fake.ssn(),        fake.name(),        fake.random_element(elements=('男', '女')),        fake.phone_number(),        fake.address(),        fake.random_int(min=1, max=100),        fake.random_element(elements=('类别1', '类别2', '类别3')),        'NULL',        fake.date_time_this_year(),        fake.name(),        fake.phone_number(),        fake.random_element(elements=('鼻拭子', '咽拭子', '唾液样本')),        '本溪市核酸检测基地实验室',        fake.date_time_this_year(),        '本人',        fake.random_int(min=1, max=10)    ]    ws.append(row_data)# 保存文件wb.save('data.xlsx')

结果如下:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Z2Ch7K58-1686476514245)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20230611171609705.png)]

生成的数据,如有身份证号码的雷同或手机号的雷同,纯属巧合!

生成这些数据可以应用在医疗系统的建设时充当mock数据。

四、案例2:生成不重复的人名和地名

有一些需求要求我们生成的数据不包含重复值

我们可以配合pandas库来进行生成和去重。

from faker import Fakerimport pandas as pdfake = Faker(['zh_CN', 'en_US'])# 生成第一列数据country1_cities = {fake.city_name() + '市' for i in range(2000)}column1 = list(country1_cities) + [fake.state()]*2000print(len(column1))# 生成第二列数据names = {fake.name() for j in range(4000)}column2 = list(names)print(len(column2))# 计算每列数据的长度len1 = len(column1)len2 = len(column2)# 如果列的长度不一致,则新建一个DataFrame来保证列的长度一致if len1 != len2:    max_len = max(len1, len2)    dummy_df = pd.DataFrame()    if len1 < max_len:        dummy_df['国家或地区'] = ['']*(max_len - len1)        column1.extend(dummy_df['国家或地区'].tolist())    elif len2 < max_len:        dummy_df['人名'] = ['']*(max_len - len2)        column2.extend(dummy_df['人名'].tolist())# 将数据转化为DataFramedf = pd.concat([pd.DataFrame(column1, columns=['国家或地区']), pd.DataFrame(column2, columns=['人名'])], axis=1)# 保存到csv文件中df.to_csv('地名与人名不重复.csv', index=False)

但要注意,人名不重复很简单,可以生成中文人名和英文名。但地名不重复是有一定难度的,所以地名的生成在数量上是有限制的。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NB4OdDiE-1686476514246)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20230611172425411.png)]

五、案例3:生成有时间期限的低保数据

我们还会遇到一些需要记录时间期限的场景,如健身卡会员期限等。

生成时间时我们可以设置开始时间和结束时间,如:

fake.date_between(start_date='-5y', end_date='today').strftime('%Y/%m/%d'),

这里我们设置开始时间是在前五年之内的,结束时间设置为今天。那么Faker就会随机生成在这五年之内的随机日期。

from faker import Fakerfrom openpyxl import Workbook# 创建faker对象fake = Faker('zh_CN')# 创建工作表wb = Workbook()ws = wb.active# 编写列头headers = [ "序号", "年度", "单位隶属",'姓名','身份证号','保障开始时间','保障结束时间','救助情况','所属县区','所属乡镇街道','所属社区村','类型','备注']ws.append(headers)# 生成并写入200个数据条目for i in range(3000):    row = [        fake.random_int(min=1, max=100),        '2023',        '本溪市',        fake.name(),  # 姓名        fake.ssn(),  # 身份证号        fake.date_between(start_date='-5y', end_date='today').strftime('%Y/%m/%d'),        fake.date_between(start_date='today', end_date='+5y').strftime('%Y/%m/%d'),        fake.random_int(min=200, max=500),        '本溪满族自治县',        '沙尖子镇',        fake.random_element(elements=('北沟村委会', '大华街道', '东明街道', '北台街道')),        fake.random_element(elements=('农村低保', '城市低保', '残疾人两项补助')),        fake.random_element(elements=('因病', '因残',)),    ]    ws.append(row)# 保存工作簿wb.save("低保数据.xlsx")

生成结果:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-5r8AVxcz-1686476514247)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20230611172903896.png)]

六、案例4:生成电力数据

关于数值类型的数据我们可以使用

fake.random_int(min=10000000000,max=99999999999)

来定义区间和类型,此外关于地址和公司名也可以随机生成

fake.address()fake.company()

案例代码如下:

from faker import Fakerfrom openpyxl import Workbook# 创建faker对象fake = Faker('zh_CN')# 创建工作表wb = Workbook()ws = wb.active# 编写列头headers = ['户号','户名','表号','地址','手机号','身份证号','用电量202001', '用电量202002', '用电量202003', '用电量202004', '用电量202005', '用电量202006', '用电量202007', '用电量202008', '用电量202009', '用电量202010', '用电量202011', '用电量202012', '用电量202101', '用电量202102', '用电量202103', '用电量202104', '用电量202105', '用电量202106', '用电量202107', '用电量202108', '用电量202109', '用电量202110', '用电量202111', '用电量202112', '余额','单位']ws.append(headers)# 生成并写入200个数据条目for i in range(3000):    row = [        fake.random_int(min=10000000000,max=99999999999),        fake.name(),        fake.random_int(min=100000000000000000,max=999999999999999999),        fake.address(),        fake.phone_number(),        fake.ssn(),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.random_int(min=1, max=400),        fake.company(),  # 单位名称    ]    ws.append(row)# 保存工作簿wb.save("国网电力.xlsx")

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wQM1EEGJ-1686476514247)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20230611173315600.png)]

七、案例5:生成房产登记数据

我们可以在生成数据时,利用字符串拼接的方式进行生成

如下列代码,我们使用循环,并随机生成j

j = random.randint(20000, 50000)....'本房权证平山区字第'+ str(j)+ '号' ,  # 权证号

完整代码如下

import randomimport fakerimport openpyxl# 创建一个 Faker 对象fake = faker.Faker('zh_CN')# 创建一个 Excel 文件和工作表wb = openpyxl.Workbook()ws = wb.active# 创建表头ws.append(['编号', '区划', '权证号', '姓名', '证件类型', '身份证号', '地址', '建筑面积', '办结时间'])# 生成数据并写入 Excel 表格for i in range(3000):    j = random.randint(20000, 50000)    ws.append([        i + 1,  # 编号        fake.random_element(elements=('平山区', '溪湖区', '明山区', '南芬区')),  # 区划        '本房权证平山区字第'+ str(j)+ '号' ,  # 权证号        fake.name(),  # 姓名        '居民身份证',  # 证件类型        fake.ssn(min_age=18, max_age=70),  # 身份证号        fake.address(),  # 地址        round(fake.pyfloat( positive=True, min_value=50, max_value=200), 2),  # 建筑面积        fake.date_between(start_date='-5y', end_date='today').strftime('%Y/%m/%d')  # 办结时间    ])# 保存 Excel 文件wb.save('房产登记数据.xlsx')

结果如下:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6Ny13zrV-1686476514248)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20230611173415636.png)]

八、总结

Faker精简应用可以帮助程序员快速生成测试数据。通过导入Faker库,并选择需要生成的随机数据类型,程序员可以轻松地创建测试数据,从而减少手动创建测试数据的工作量。

以上内容就是我的全部分享啦!祝你有个美好的一天!
在这里插入图片描述

来源地址:https://blog.csdn.net/tianhai12/article/details/131155756

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python使用Faker库进行生成模拟mock数据(基本使用+五个小案例)

下载Word文档到电脑,方便收藏和打印~

下载Word文档

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录