我的编程空间,编程开发者的网络收藏夹
学习永远不晚

在Linux的命令行中实现字符出现频率统计的方法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

在Linux的命令行中实现字符出现频率统计的方法

本篇内容主要讲解“在Linux的命令行中实现字符出现频率统计的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“在Linux的命令行中实现字符出现频率统计的方法”吧!

立刻来到我们脑海的命令,计算字和字符在一个文本文件中出现频率的 Linux 命令是 wc 命令。
在使用的脚本来分析文本文件之前,我们必须有一个文本文件。为了保持一致性,我们将创建一个文本文件,man命令的输出如下所述。  

代码如下:

$ man man > man.txt

以上命令是将man命令的使用方式导入到man.txt文件里。

我们希望能得到最平常的单词,对之前我们新建的文件执行如下脚本。  

代码如下:

$ cat man.txt | tr ' '  '\012' | tr '[:upper:]' '[:lower:]' | tr -d '[:punct:]' | grep -v '[^a-z]' | sort | uniq -c | sort -rn | head

Sample Output  

代码如下:

7557
   262 the
   163 to
   112 is
   112 a
   78 of
   78 manual
   76 and
   64 if
   63 be

上面的脚本,输出了最常使用的十个单词。

如何看单个的字母呢?那就用如下的命令。   

代码如下:

$ echo 'tecmint team' | fold -w1</p><p>Sample Output</p><p>    [code] t
   e
   c
   m
   i
   n
   t
   t
   e
   a
   m

注: -w1只是设定了长度

现在我们将从那个文本文件中掰下来的每一个字母,对结果进行排序,得到所需的输出频率的十个最常见的字符。

    $ fold -w1 < man.txt | sort | uniq -c | sort -rn | head

Sample Output   

代码如下:

8579  
   2413 e
   1987 a
   1875 t
   1644 i
   1553 n
   1522 o
   1514 s
   1224 r
   1021 l

如何区分大小写呢?之前我们都是忽略大小写的。所以,用如下命令。

    $ fold -w1 < man.txt | sort | tr '[:lower:]' '[:upper:]' | uniq -c | sort -rn | head -20

Sample Output  

代码如下:

11636  
   2504 E
   2079 A
   2005 T
   1729 I
   1645 N
   1632 S
   1580 o
   1269 R
   1055 L
   836 H
   791 P
   766 D
   753 C
   725 M
   690 U
   605 F
   504 G
   352 Y
   344 .

请检查上面的输出,标点符号居然包括在内。让我们干掉他,用tr 命令。GO:   

代码如下:

$ fold -w1 < man.txt | tr '[:lower:]' '[:upper:]' | sort | tr -d '[:punct:]' | uniq -c | sort -rn | head -20

Sample Output     

代码如下:

11636  
     2504 E
     2079 A
     2005 T
     1729 I
     1645 N
     1632 S
     1580 O
     1550
     1269 R
     1055 L
      836 H
      791 P
      766 D
      753 C
      725 M
      690 U
      605 F
      504 G
      352 Y

现在,我们有了三个文本,那就让我们用如下命令查看结果吧。  

代码如下:

$ cat *.txt | fold -w1 | tr '[:lower:]' '[:upper:]' | sort | tr -d '[:punct:]' | uniq -c | sort -rn | head -8

Sample Output     

代码如下:

11636  
      2504 E
      2079 A
      2005 T
      1729 I
      1645 N
      1632 S
      1580 O

下一步我们将会生成那些罕见的至少十个字母长的单词。以下是简单的脚本:  

代码如下:

$ cat man.txt | tr '' '\012' | tr '[:upper:]' '[:lower:]' | tr -d '[:punct:]' | tr -d '[0-9]' | sort | uniq -c | sort -n |  grep -E '..................' | head

Sample Output   

代码如下:

1        ──────────────────────────────────────────
   1        a all
   1        abc             any or all arguments within   are optional
   1               able  see setlocale for precise details
   1        ab              options delimited by  cannot be used together
   1               achieved by using the less environment variable
   1              a child process returned a nonzero exit status
   1               act as if this option was supplied using the name as a filename
   1               activate local mode  format and display  local  manual  files
   1               acute accent

注: 上面的.越来越多,其实,我们可以使用.{10} 得到同样的效果。

这些简单的脚本,让我们知道最频繁出现的单词和英语中的字符。

到此,相信大家对“在Linux的命令行中实现字符出现频率统计的方法”有了更深的了解,不妨来实际操作一番吧!这里是编程网网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

在Linux的命令行中实现字符出现频率统计的方法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

在Linux的命令行中实现字符出现频率统计的方法

本篇内容主要讲解“在Linux的命令行中实现字符出现频率统计的方法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“在Linux的命令行中实现字符出现频率统计的方法”吧!立刻来到我们脑海的命令,计算
2023-06-13

tr命令在统计英文单词出现频率中的妙用

tr命令我们很清楚,可以删除替换,删除字符串。 在英文中我们要经常会经常统计英文中出现的频率,如果用常规的方法,用设定计算器一个个算比较费事,这个时候使用tr命令,将空格分割替换为换行符,再用tr命令删除掉有的单词后面的点号,逗号,感叹号。
2022-06-04

Java编程实现统计一个字符串中各个字符出现次数的方法

本文实例讲述了Java编程实现统计一个字符串中各个字符出现次数的方法。分享给大家供大家参考,具体如下:import java.util.Iterator;import java.util.Set;import java.util.TreeM
2023-05-30

MSSQL sqlserver 统计"一个字符串"在"另一个字符串"中出现的次数的方法

转自 http://www.maomao365.com/?p=9858 摘要: 下文讲述sqlserver中最快获取一个字符串在另一个字符串中出现个数的方法分享 实验环境:sql server 2008 R2 实现思路: 1.使用rep
MSSQL sqlserver 统计"一个字符串"在"另一个字符串"中出现的次数的方法
2020-01-04

shell查找某字符串在某文件中出现行数的方法

一、简介 有的时候,我们需要分析日志来排查错误,但是日志文件特别大,打开肯定是很慢的,也是没法接受的,我们需要的是快速定位错误出现的位置,并定向取出错误信息。 快速定位某个字符串在某文件中出现的行数,可以使用 linux中grep命令 默认
2022-06-04

win8系统中的管理无线网络工具在哪里?用命令实现无线网络管理方法介绍

Windows 8中,“网络和共享中心”取消了“管理无线网络”选项。右下角网络图标,只能显示当前能搜到的热点,如果要管理所有已连接过的概要文件,就比较不方便,只能用命令来实现了。 首先,Win
2022-06-04

编程热搜

目录