我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python简单的分析文本

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python简单的分析文本


import collections
import re


#读取tips.txt文件内容,type(mytips)=str
with open("tips.txt","r",encoding="utf-8") as tip:
    
    mytips=tip.read().lower()

#正则去除非中英文字符,
strip_file=re.sub(r"\W+","",mytips)
print("正则去除非中英文字符:\n{}".format(strip_file))
print()

#筛选出所有英文单词
only_enlish=re.findall(r'[a-z]+',mytips)
print('筛选出所有英文单词:\n{}'.format(only_enlish))

#筛选出所有的中文
only_chinese=re.sub(r"[a-z1-9\W]+",'',mytips)
only_chinese_split=[c for c in only_chinese]
print('筛选出所有的中文\n{}'.format(only_chinese_split))

#如果most_common()参数为空,则按照从高频到低频依次全部打印
most_comm_word=collections.Counter(only_enlish).most_common(5)
print("打印频率最高的五个字符{}".format(most_comm_word))


#sorted(iterable,key,reverse=False)
low_comm_word=sorted(most_comm_word,key=lambda item:item[1])
print("反序输出most_comm_word{}".format(low_comm_word))

#filter(function,iterable)
specified_most_comm_word=list(filter(lambda item: True if item[1]<5 and item[1]>=3 else False,most_comm_word))
print("打印(大于等于3小于4)指定值的most_comm_word{}".format(specified_most_comm_word))

#转化成list取得word元素列表
dict_most_comm_word=dict(most_comm_word)
print('转化成字典:{}'.format(dict_most_comm_word))

#zip在python3中是惰性计算,需要转化成list
word,count=list(zip(*most_comm_word))
print('单独打印word:{}'.format(word))
print("单独打印count:{}".format(count))

#defaultdict简单应用
#分析单词出现的位置列表
enlish_dict=collections.defaultdict(list)
for k,v in enumerate(only_enlish):
    enlish_dict[v].append(k)
print('统计每个单词出现的位置:{}'.format(enlish_dict))


#orderdict简单应用
#单词从a-z进行排序
order_english_dict=collections.OrderedDict(sorted(enlish_dict.items(), key=lambda i :i[0]) )
print('单词从a-z进行排序:\n{}'.format(order_english_dict))

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python简单的分析文本

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python简单的分析文本

import collectionsimport re#读取tips.txt文件内容,type(mytips)=strwith open("tips.txt","r",encoding="utf-8") as tip: myt
2023-01-31

用Python进行简单的文本相似度分析

学习目标:利用gensim包分析文档相似度使用jieba进行中文分词了解TF-IDF模型环境:Python 3.6.0 |Anaconda 4.3.1 (64-bit)工具:jupyter notebook注:为了简化问题,本文没有剔除停用
2023-01-31

分享一个简单的python读写文件脚本

先来看一段创建文件并写入文本的代码,然后作介绍。#!/usr/bin/env python 'makeFile.py -- create a file' import os ls = os.linesep # get filename wh
2022-06-04

【Python】文本分析

依赖库pip install jiebapip install matplotlibpip install wordcloudpip install snownlp词频统计# -*- coding: utf-8 -*-import jieb
2023-01-31

Python正则简单实例分析

本文实例讲述了Python正则简单用法。分享给大家供大家参考,具体如下: 悄悄打入公司内部UED的一个Python爱好者小众群,前两天一位牛人发了条消息: 小的测试题:re.split('(W+)', ' test, test, test.
2022-06-04

简单python脚本

简单python脚本:注:1、python 变量不需要$2、for里面的print需要前空2格3、range(2,9)不包括9#!/usr/bin/pythoni=5print ii=i+1print ia=6b=5c=a * bprint
2023-01-31

python图片文本识别的简单实现

http://blog.sina.com.cn/s/blog_628cc2b70101cjvp.htmlPython图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件,为了避免一个个工具的安装,建议使用
2023-01-31

python简单的HTML解析

# coding:utf-8# 引入相关模块import jsonimport requestsfrom bs4 import BeautifulSoupurl = "http://news.qq.com/"# 请求腾讯新闻的URL,获取其
2023-01-31

简单分析ARP协议中的基本IP地址

  地址解析协议,也就是ARP,是根据IP地址获取物理地址的一个TCP/IP协议。ARP命令可用于查询本机ARP缓存中IP地址和MAC地址的对应关系、添加或删除静态对应关系等。在这一篇教程里面,小编主要和大家简单的介绍一下:简单分析ARP协议中的基本IP地址。  对于网络的传输这一个来说的话,IP地址也就相当于主机地址
简单分析ARP协议中的基本IP地址
2024-04-18

Python实现简单过滤文本段的方法

本文实例讲述了Python实现简单过滤文本段的方法。分享给大家供大家参考,具体如下: 一、问题: 如下文本:## Alignment 0: score=397.0 e_value=8.2e-18 N=9 scaffold1&scaffold
2022-06-04

python 简单备份文件脚本v1.0的实例

整体思路 将要备份的目录列为一个列表,通过执行系统命令,进行压缩、备份。 这样关键在于构造命令并使用 os.system( )来执行,一开始使用zip 命令始终没有成功,后来发现Windows下并没有这个命令,还要安装GnuWin32项目,
2022-06-04

Python实现简单的文件传输与MySQL备份的脚本分享

用python实现简单Server/Client文件传输: 服务器端:#!/usr/bin/python import SocketServer, time class MyServer(SocketServer.BaseRequestHa
2022-06-04

python scrapy简单模拟登录的代码分析

1、requests模块。直接携带cookies请求页面。 找到url,发送post请求存储cookie。 2、selenium(浏览器自动处理cookie)。 找到相应的input标签,输入文本,点击登录。 3、scrapy直接带cook
2022-06-02

使用Python读写文本文件及编写简单的文本编辑器

学习raw_input和argv是学习读取文件的前提,你可能不能完全理解这个练习,所以认真学习并检查。如果不认真的话,很容易删除一些有用的文件。 这个练习包含两个文件,一个是运行文件ex15.py,一个是ex15_sample.txt。第二
2022-06-04

如何利用python实现简单的情感分析

今天小编给大家分享一下如何利用python实现简单的情感分析的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。1 数据导入及预处
2023-07-02

python之解析最简单的xml

1、person.xm文件如下2、用xml.etree.ElementTree解析person.xml的实现3、效果如下4、总结python里面的list = []相当于java里面的list,然后可以改变其中的值。
2023-01-31

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录