我的编程空间,编程开发者的网络收藏夹
学习永远不晚

Python文本去重

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

Python文本去重

用法:命令行python unique.py -f file.txt
输出:去除重复字符后的output.txt

# -*- coding:utf-8 -*-
#auther_cclarence_2016_4_6
#open file and read out the characters
from optparse import OptionParser
import sys
reload(sys)
sys.setdefaultencoding("utf-8")
def readfile(filename):
    try:
        f = open(filename)
    except Exception, e:
        print "No such file"
        exit(0)
    text = f.readlines()
    f.close()
    for i in range(0,len(text)-1):
        text[i] = text[i][:-1]
    return text
#deduplication
def unique(arr):
    arr1 = list(set(arr))
    arr1.sort(key = arr.index)
    return arr1
def main():
    parser = OptionParser()
    parser.add_option("-f", "--file", dest="filename",help="write report to FILE", metavar="FILE")
    (options, args) = parser.parse_args()
    filename = options.filename
    text = readfile(filename)
    text_dealed = unique(text)
    for i in range(0,len(text_dealed)-1):
        text_dealed[i] = text_dealed[i] +'\n'
    f = open("output.txt","w")
    f.writelines(text_dealed)
    f.close()
    deduplication_num = len(text) - len(text_dealed) 
    print "success"
    print "The num of data from the source file        :" + str(len(text))
    print "The num of data from the preprocessed file: :" + str(len(text_dealed))
    print "The num of data removed                     :" + str(deduplication_num)
if __name__ == '__main__':
    main()

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

Python文本去重

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

Python文本去重

用法:命令行python unique.py -f file.txt 输出:去除重复字符后的output.txt# -*- coding:utf-8 -*-#auther_cclarence_2016_4_6#open file and r
2023-01-31

python实现文本去重且不打乱原本顺序

代码也是在网上找的,效率挺不错的,特别适合字典文件的去重#coding=utf-8 import sys def open_txt(): #打开TXT文本写入数组 try: xxx = file(sys.argv[1], 'r') for
2022-06-04

Python做文本按行去重的实现方法

文本: 每行在promotion后面包含一些数字,如果这些数字是相同的,则认为是相同的行,对于相同的行,只保留一行。 思路: 根据字典和字符串切割。 建立一个空字典。 读入文本,并对每行切割前半部分,在读入文本的过程中循环在这个字典中查找,
2022-06-04

如何实现Python文件去重

这篇文章将为大家详细讲解有关如何实现Python文件去重,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。代码ing导出的文件都是保存在同一文件夹下的,格式也相同。然后,上网查了下 filecmp.cmp()
2023-06-20

php如何去除文本中的重复值

这篇文章主要讲解了“php如何去除文本中的重复值”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“php如何去除文本中的重复值”吧!一、PHP中去除数组中的重复值在PHP中,可以使用array_
2023-07-05

Shell中怎么实现文本去重操作

这期内容当中小编将会给大家带来有关Shell中怎么实现文本去重操作,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。代码如下:ccccaaaabbbbddddbbbbccccaaaa现在需要对它进行去重处理,
2023-06-09

Python入门:文件内容去重操作

+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++   学习是一种态度,只要你有态度,学习将会是一种乐趣 +
2023-01-31

Python怎么实现文件自动去重

这篇文章主要介绍Python怎么实现文件自动去重,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!Python 文件自动去重平日里一来无聊,二来手巧,果然下载了好多无(luan)比(qi)珍(ba)贵(zao)的资料,搞
2023-06-15

JAVA 如何实现大文本去除重复行

这期内容当中小编将会给大家带来有关JAVA 如何实现大文本去除重复行,文章内容丰富且以专业的角度为大家分析和叙述,阅读完这篇文章希望大家可以有所收获。去重复行,用SQL写很简单,就一句SELECT DISTINCT … FROM。但是文件上
2023-06-03

Shell实现文本去重并操持原有顺序

简单来说,这个技巧对应的是如下一种场景 假设有文本如下ccccaaaabbbbddddbbbbccccaaaa现在需要对它进行去重处理,这个很简单,sort -u就可以搞定,但是如果我希望保持文本原有的顺序,比如这里有两个aaaa,我只是希
2022-06-04

python如何实现MD5进行文件去重

本篇内容主要讲解“python如何实现MD5进行文件去重”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“python如何实现MD5进行文件去重”吧!目录前言工作原理代码前言工作中偶尔会遇到文件去重
2023-06-20

python 去除重复行

from pandas import read_csv;df = read_csv('D://PA//4.3//data.csv')newDF = df.drop_duplicates();
2023-01-31

大数据中文本怎么按行去除重复值

这篇文章跟大家分析一下“大数据中文本怎么按行去除重复值”。内容详细易懂,对“大数据中文本怎么按行去除重复值”感兴趣的朋友可以跟着小编的思路慢慢深入来阅读一下,希望阅读后能够对大家有所帮助。下面跟着小编一起深入学习“大数据中文本怎么按行去除重
2023-06-03

用python删除文件夹中的重复图片(图片去重)

目录第一部分:判断两张图片是否相同第二部分:判断文件夹内是否有重复图片第三部分:程序运行结果第四部分:注意第一部分:判断两张图片是否相同 要查找重复的图片,必然绕不开判断两张图片是否相同。判断两张图片简单呀!图片可以看成数组,比较两个数组是
2022-06-02

python的list去除重复

我直接上脚本:方法1:#!/usr/bin/env pythonn = [1,2,3,3,4,3,1,2,3,2,1,4,5,5,5,5,6,6,4,3,2,1,2,6,8,2]m = []for x in n:    if x not i
2023-01-31

Python 列表简单去重

列表最简单的去重方式list1 = [10, 5, 1, 1, 3, 3, 3, 6, 6, 6]print(set(list1))print(list((set(list1)))) #不排序print(sorted(set(list1))
2023-01-31

python怎么查找重复文本字段

要查找重复的文本字段,可以使用Python中的集合(set)数据结构来实现。下面是一个示例代码:pythondef find_duplicates(text_list):seen = set()duplicates = set()for t
2023-10-18

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录