python通过re正则表达式切割中英文的操作

2024-04-02 19:55

短信预约 -IT技能 免费直播动态提醒

我就废话不多说了，大家还是直接看代码吧~


import re 
s = 'alibaba阿里巴巴' # 待分割字符串
en_letter = '[\u0041-\u005a|\u0061-\u007a]+' # 大小写英文字母
zh_char = '[\u4e00-\u9fa5]+' # 中文字符
 
print(re.findall(zh_char,s) + re.findall(en_letter,s))
 
# 输出： ['阿里巴巴', 'alibaba']

范围	说明
\u4e00-\u9fa5	汉字的unicode范围
\u0030-\u0039	数字的unicode范围
\u0041-\u005a	大写字母unicode范围
\u0061-\u007a	小写字母unicode范围

补充：python--中英文混合字符串的切分（中文按字断开，英文按单词分开，数字按空格等特殊符号断开）

待切分句子：

s = "12、China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示，haha中国联想控股将分拆其多个业务部门在股市上市,。"

切分结果：

['12', 'china', 's', 'legend', 'holdings', 'will', 'split', 'its', 'several', 'business', 'arms', 'to', 'go', 'public', 'on', 'stock', 'markets', 'the', 'group', 's', 'president', 'zhu', 'linan', 'said', 'on', 'tuesday', '该', '集', '团', '总', '裁', '朱', '利', '安', '周', '二', '表', '示', 'haha', '中', '国', '联', '想', '控', '股', '将', '分', '拆', '其', '多', '个', '业', '务', '部', '门', '在', '股', '市', '上', '市']

代码：


import re
def get_word_list(s1):
  # 把句子按字分开，中文按字分，英文按单词，数字按空格
  regEx = re.compile('[\\W]*')  # 我们可以使用正则表达式来切分句子，切分的规则是除单词，数字外的任意字符串
  res = re.compile(r"([\u4e00-\u9fa5])")  # [\u4e00-\u9fa5]中文范围
  p1 = regEx.split(s1.lower())
  str1_list = []
  for str in p1:
    if res.split(str) == None:
      str1_list.append(str)
    else:
      ret = res.split(str)
      for ch in ret:
        str1_list.append(ch)
  list_word1 = [w for w in str1_list if len(w.strip()) > 0] # 去掉为空的字符
  return list_word1
if __name__ == '__main__':
  s = "12、China's Legend Holdings will split its several business arms to go public on stock markets, the group's president Zhu Linan said on Tuesday.该集团总裁朱利安周二表示，haha中国联想控股将分拆其多个业务部门在股市上市。"
  list_word1=get_word_list(s)
  print(list_word1)

以上为个人经验，希望能给大家一个参考，也希望大家多多支持编程网。如有错误或未考虑完全的地方，望不吝赐教。

免责声明：

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的，并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据，供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

阅读原文内容投诉

python通过re正则表达式切割中英文的操作

下载Word文档到电脑，方便收藏和打印～

下载Word文档

python通过re正则表达式切割中英文的操作

待切分句子：

切分结果：

代码：

python通过re正则表达式切割中英文的操作

相关文章

猜你喜欢

python通过re正则表达式切割中英文的操作

python如何通过re正则表达式切割中英文

Python的re模块正则表达式操作

Python正则表达式中字符串的实际操作方式

Python使用正则表达式识别代码中的中文、英文和数字实例演示

热门标签

编程热搜

Python 学习之路 - Python

chatgpt的中文全称是什么

C/C++中extern函数使用详解

C/C++可变参数的使用

css样式文件该放在哪里

php中数组下标必须是连续的吗

Python 3 教程

Python pip包管理

ubuntu如何重新编译内核

改善Java代码之慎用java动态编译

编程资源站

2021年下半年软考高级信息系统项目管理师高频考点精选资料

2021下半年软考高级信息系统技术知识点记忆口诀精选资料

2021下半年软考《信息系统项目管理师》考试真题及答案精选资料

2021下半年软考高级考试备考攻略精选资料

2021年软考高级《信息系统项目管理师》巩固练习题汇总精选资料

2021下半年软考高级信息系统项目管理师30个易考知识点汇总精选资料

2021下半年软考高级知识点这样记，还担心记不住吗精选资料

2021年下半年软考高级考试重点汇总精选资料

2021下半年软考高级信息系统项目管理师计算公式汇总精选资料

2021年下半年软考高级《信息系统项目管理师》模拟试题精选资料

信息系统项目管理师选择题每日一练（2024）历年试题

2023年下半年信息系统项目管理师综合知识真题演练历年试题

目录

python通过re正则表达式切割中英文的操作

待切分句子：

切分结果：

代码：

python通过re正则表达式切割中英文的操作

相关文章

猜你喜欢

python通过re正则表达式切割中英文的操作

python如何通过re正则表达式切割中英文

Python的re模块正则表达式操作

Python正则表达式中字符串的实际操作方式

Python使用正则表达式识别代码中的中文、英文和数字实例演示

热门标签

编程热搜

编程资源站

目录

感谢您的提交，我们服务专员将在30分钟内给您回复