我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python 数据处理,切片,替换,去重

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python 数据处理,切片,替换,去重

一、把下面这组数据进行处理,进行规则排序。

wKiom1W0Pc6jCEM6AACvT06AFio287.jpg

第一版代码:

#!/usr/local/python3/bin/python3
#定义了一个函数,用来做数据的分隔符转换,保证数据风格的一致,才能有效排序。
def sanitize(time_string):   
    if '-' in time_string:    
        splitter='-'
    elif ':' in time_string:
        splitter=':'
    else:
        return(time_string)
#将取到的一段数据,通过判断中定义的分割符切开为两组,分别报存到mins,secs变量中。
    (mins,secs) = time_string.split(splitter) 
#在返回结果的时候,完成字符串合并。
    return(mins + '.' + secs)   

#使用with open打开文件,和open不同于with open会自动关闭文件,不需要手动关闭。    
with open('james') as jam:
    data = jam.readline()
#把数据进行首尾去空格,使用,最为分隔符切分。    
james1 = data.strip().split(',')
#这里也可以通过这种方式排序,在最后输出的时候,直接输出james2就可以了。
#james2 = sorted(james1)

with open('julie') as jul:
    data = jul.readline()
julie1 = data.strip().split(',')
#julie2 = sorted(julie1)

with open('mikey') as mik:
    data = mik.readline()
mikey1 = data.strip().split(',')
#mikey2 = sorted(mikey1)

with open('sarah') as sar:
    data = sar.readline()
sarah1 = data.strip().split(',')
#sarah2 = sorted(sarah1)

clean_james=[]
clean_julie=[]
clean_mikey=[]
clean_sarah=[]

#通过迭代每组数据,调用sanitize函数,再把转换好的数据添加到新的列表中,这样列表中的数据风格就是一致的。
for each_t in james1:
    clean_james.append(sanitize(each_t))  
for each_t in julie1:
    clean_julie.append(sanitize(each_t))
for each_t in mikey1:
    clean_mikey.append(sanitize(each_t))
for each_t in sarah1:
    clean_sarah.append(sanitize(each_t))

#输出新列表并排序
print(sorted(clean_james)) 
print(sorted(clean_julie))
print(sorted(clean_mikey))
print(sorted(clean_sarah))

输出结果:

wKioL1W0RvWi_6MbAADcTt72ius974.jpg

这就完成了规则排序。


二、需要给数据去重复,排序,只输出前三项数据。

第二版代码:

#!/usr/local/python3/bin/python3
def sanitize(time_string):
    if '-' in time_string:
        splitter='-'
    elif ':' in time_string:
        splitter=':'
    else:
        return(time_string)
    (mins,secs) = time_string.split(splitter)
    return(mins + '.' + secs)

#定义函数来解决去除重复数据项的问题,此函数接受两个列表作为参数带入,当数据不存在新列表中就把数据添加到新列表,如果有存在则不会添加,代替了下面使用每个列表使用for迭代的方式,代码更简洁。    
def pomoto(old_list,new_list):
    for i in old_list:
        if i not in new_list:
            new_list.append(i)

with open('james') as jam:
    data = jam.readline()
james1 = data.strip().split(',')

with open('julie') as jul:
    data = jul.readline()
julie1 = data.strip().split(',')

with open('mikey') as mik:
    data = mik.readline()
mikey1 = data.strip().split(',')

with open('sarah') as sar:
    data = sar.readline()
sarah1 = data.strip().split(',')


unique_james = []
unique_julie = []
unique_sarah = []
unique_mikey = []

#从迭代的方式改为了列表推导的方式
clean_james = sorted([sanitize(each_t) for each_t in james1])
clean_julie = sorted([sanitize(each_t) for each_t in julie1])
clean_mikey = sorted([sanitize(each_t) for each_t in mikey1])
clean_sarah = sorted([sanitize(each_t) for each_t in sarah1])

#调用函数完成去重复
pomoto(clean_james,unique_james)
pomoto(clean_julie,unique_julie)
pomoto(clean_mikey,unique_mikey)
pomoto(clean_sarah,unique_sarah)

#每列表迭代方式的去重复
#for i in clean_james:
#    if i not in unique_james:
#        unique_james.append(i)
#for i in clean_julie:
#    if i not in unique_julie:
#        unique_julie.append(i)
#for i in clean_mikey:
#    if i not in unique_mikey:
#        unique_mikey.append(i)
#for i in clean_sarah:
#    if i not in unique_sarah:
#        unique_sarah.append(i)

#输出去重复后的唯一新列表,只打印前三项数据
print(unique_james[0:3])
print(unique_julie[0:3])
print(unique_mikey[0:3])
print(unique_sarah[0:3])

输出结果:

wKioL1W0S4iTXXCsAABhehYxaX0484.jpg


三、使用集合删除重复项,将重复的with open定义为函数,简洁代码,进行逆序排序,输出前三项。

第三版代码:

#!/usr/local/python3/bin/python3
def sanitize(time_string):
    if '-' in time_string:
        splitter='-'
    elif ':' in time_string:
        splitter=':'
    else:
        return(time_string)
    (mins,secs) = time_string.split(splitter)
    return(mins + '.' + secs)
    
#定义函数打开文件获取数据返回,并加入了错误处理代码。
def get_file_data(filename):
    try:
        with open(filename) as f:
            data = f.readline()
        return(data.strip().split(','))
    except IOError as ioerr:
        print('File error' + str(ioerr))
        return(None)

#调用函数直接得到文件中经过切片后的数据。  
james1 = get_file_data('james')
julie1 = get_file_data('julie')
mikey1 = get_file_data('mikey')
sarah1 = get_file_data('sarah')

print(sorted(set([sanitize(i) for i in james1]),reverse=True)[0:3])
print(sorted(set([sanitize(i) for i in julie1]),reverse=True)[0:3])
print(sorted(set([sanitize(i) for i in mikey1]),reverse=True)[0:3])
print(sorted(set([sanitize(i) for i in sarah1]),reverse=True)[0:3])

输出结果:

wKiom1W0WGizgEvUAABfXXwVwfM221.jpg


定义get_file_data函数代替了,多行的with open,使得代码简洁。

wKiom1W0WPLwTbfDAAEOINoQmqY626.jpg


Python 集合数据结构:集合中的数据项是无序的,而且不允许重复的,这和我们数学中的集合很像。

wKiom1W0WnvD9MAnAACrJyNrpKc193.jpg


最后print输出代码:

wKioL1W0XojDpMvHAADyLuhrjY8699.jpg

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python 数据处理,切片,替换,去重

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python 数据处理,切片,替换,去重

一、把下面这组数据进行处理,进行规则排序。第一版代码:#!/usr/local/python3/bin/python3#定义了一个函数,用来做数据的分隔符转换,保证数据风格的一致,才能有效排序。def sanitize(time_strin
2023-01-31

ODBC连接Oracle处理大数据量数据去重

在处理大数据量数据去重时,可以使用ODBC连接Oracle来实现。以下是一种方法:创建一个ODBC数据源连接到Oracle数据库。使用SQL语句查询需要去重的数据,并将结果存储在一个临时表中。使用SQL语句对临时表进行去重操作,可以使用
ODBC连接Oracle处理大数据量数据去重
2024-07-16

利用Python字符串切片技巧,高效处理文本数据

灵活运用Python字符串切片,高效处理文本数据在日常的数据处理中,处理文本数据是一项非常常见和重要的任务。Python作为一门强大的编程语言,提供了丰富的字符串操作方法,其中字符串切片是一种非常灵活和高效的处理文本数据的方式。本文将通过
利用Python字符串切片技巧,高效处理文本数据
2024-02-03

Windows BAT批处理字符串相关操作(定义、分割、拼接、替换、切片、查找)

本文介绍了WindowsBAT批处理中字符串操作的定义、分割、拼接、替换、切片和查找。通过定义参数变量,利用分隔符分割字符串,使用字符串拼接符拼接字符串,使用正则表达式替换字符串,指定范围提取子字符串,并使用find命令和exist操作符查找子字符串。本文还提供了示例批处理脚本,展示了如何使用这些操作来处理字符串。
Windows BAT批处理字符串相关操作(定义、分割、拼接、替换、切片、查找)
2024-04-02

学习numpy切片技巧,简化大型数据处理

掌握Numpy切片操作方法,轻松处理大规模数据,需要具体代码示例摘要:在处理大规模数据时,使用合适的工具非常重要。Numpy是Python中一个常用的库,提供了高性能的数值计算工具。本文将介绍Numpy的切片操作方法,通过代码示例演示如何
学习numpy切片技巧,简化大型数据处理
2024-01-26

使用Go语言的切片对数据进行高效处理

Golang小白一枚,正在不断学习积累知识,现将学习到的知识记录一下,也是将我的所得分享给大家!而今天这篇文章《使用Go语言的切片对数据进行高效处理》带大家来了解一下##content_title##,希望对大家的知识积累有所帮助,从而弥补
使用Go语言的切片对数据进行高效处理
2024-04-04

如何使用Pandas处理数据中的重复值:全面解析去重方法

Pandas去重方法全面解析:轻松处理数据中的重复值,需要具体代码示例引言:在数据分析和处理过程中,常常遇到数据中包含重复值的情况。这些重复值可能会对分析结果产生误导或影响数据的准确性。因此,去重是数据处理的重要一环。Pandas作为Py
如何使用Pandas处理数据中的重复值:全面解析去重方法
2024-01-24

python数据处理之Pandas类型转换怎么实现

这篇文章主要介绍“python数据处理之Pandas类型转换怎么实现”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“python数据处理之Pandas类型转换怎么实现”文章能帮助大家解决问题。转换为字
2023-06-30

Go语言中如何处理并发数据库连接的故障切换问题?

Go语言中如何处理并发数据库连接的故障切换问题?在处理并发数据库连接时,我们通常会遇到数据库连接的故障切换问题。当一个数据库连接发生故障时,我们需要考虑如何及时切换到一个可用的数据库连接,以确保系统的正常运行。下面将详细介绍在Go语言中如何
2023-10-22

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录