Python 中文去标点
短信预约 -IT技能 免费直播动态提醒
老师让把每一次写东西遇到的问题都记录下来,个人觉得很有用,就以此为第一篇博文吧⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄
在写K-Means聚类时,对文本分词处理遇到去标点的问题,之前一直使用的是
.translate(None, string.punctuation)
方法,(⊙v⊙)嗯,我就是学得太粗糙,不管中英文(捂脸)。在百度之后,发现
string = re.sub("[\s+\.\!\/_,$%^*(+\"\')]+|[+——()?【】“”!,。?、~@#¥%……&*()]+', "",line)
方法并不管用,最后参考
[(http://www.cnblogs.com/arkenstone/p/6092255.html)]找到了解决办法
from zhon.hanzi import punctuation
line='!今天写了个爬虫。、?'
print re.sub(ur"[%s]+" %punctuation, "", line.decode("utf-8"))
运行结果为
今天写了个爬虫
等我写好了K-Means,一定要好好上传~
免责声明:
① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。
② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341