我的编程空间,编程开发者的网络收藏夹
学习永远不晚

python如何实现Simhash算法

短信预约 -IT技能 免费直播动态提醒
省份

北京

  • 北京
  • 上海
  • 天津
  • 重庆
  • 河北
  • 山东
  • 辽宁
  • 黑龙江
  • 吉林
  • 甘肃
  • 青海
  • 河南
  • 江苏
  • 湖北
  • 湖南
  • 江西
  • 浙江
  • 广东
  • 云南
  • 福建
  • 海南
  • 山西
  • 四川
  • 陕西
  • 贵州
  • 安徽
  • 广西
  • 内蒙
  • 西藏
  • 新疆
  • 宁夏
  • 兵团
手机号立即预约

请填写图片验证码后获取短信验证码

看不清楚,换张图片

免费获取短信验证码

python如何实现Simhash算法

这篇文章主要介绍python如何实现Simhash算法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!

1、simhash步骤

simhash包含分词、hash、加权、合并、降维五大步骤

simhash代码如下:

import jiebaimport jieba.analyseimport numpy as npclass SimHash(object):    def simHash(self, content):        seg = jieba.cut(content)        # jieba.analyse.set_stop_words('stopword.txt')        # jieba基于TF-IDF提取关键词        keyWords = jieba.analyse.extract_tags("|".join(seg), topK=10, withWeight=True)        keyList = []        for feature, weight in keyWords:            # print('feature:' + feature)            print('weight: {}'.format(weight))            # weight = math.ceil(weight)            weight = int(weight)            binstr = self.string_hash(feature)            print('feature: %s , string_hash %s' % (feature, binstr))            temp = []            for c in binstr:                if (c == '1'):                    temp.append(weight)                else:                    temp.append(-weight)            keyList.append(temp)        listSum = np.sum(np.array(keyList), axis=0)        if (keyList == []):            return '00'        simhash = ''        for i in listSum:            if (i > 0):                simhash = simhash + '1'            else:                simhash = simhash + '0'        return simhash    def string_hash(self, source):        if source == "":            return 0        else:            temp = source[0]            temp1 = ord(temp)            x = ord(source[0]) << 7            m = 1000003            mask = 2 ** 128 - 1            for c in source:                x = ((x * m) ^ ord(c)) & mask            x ^= len(source)            if x == -1:                x = -2            x = bin(x).replace('0b', '').zfill(64)[-64:]            return str(x)    def getDistance(self, hashstr1, hashstr2):        '''            计算两个simhash的汉明距离        '''        length = 0        for index, char in enumerate(hashstr1):            if char == hashstr2[index]:                continue            else:                length += 1        return length

1.1分词

分词是将文本文档进行分割成不同的词组,比如词1为:今天星期四,词2为:今天星期五

得出分词结果为【今天,星期四】【今天,星期五】

1.2hash

hash是将分词结果取hash值
星期四hash为:0010001100100000101001101010000000101111011010010001100011011110
今天hash为:0010001111010100010011110001110010100011110111111011001011110101
星期五hash为:0010001100100000101001101010000000101111011010010000000010010001

1.3加权

python如何实现Simhash算法

1.4合并

python如何实现Simhash算法

1.5降维

降维是将合并的结果进行降维,如果值大于0,则置为1小于0 则置为0,因此得到的结果为:

python如何实现Simhash算法

2、simhash比对

一般simhash采用海明距离来进行计算相似度,海明距离计算如下:

对于A,B两个n维二进制数

python如何实现Simhash算法

二者的海明距离为:

python如何实现Simhash算法

其中:

python如何实现Simhash算法

举例:

1000与1111的海明距离为3

以上是“python如何实现Simhash算法”这篇文章的所有内容,感谢各位的阅读!希望分享的内容对大家有帮助,更多相关知识,欢迎关注编程网行业资讯频道!

免责声明:

① 本站未注明“稿件来源”的信息均来自网络整理。其文字、图片和音视频稿件的所属权归原作者所有。本站收集整理出于非商业性的教育和科研之目的,并不意味着本站赞同其观点或证实其内容的真实性。仅作为临时的测试数据,供内部测试之用。本站并未授权任何人以任何方式主动获取本站任何信息。

② 本站未注明“稿件来源”的临时测试数据将在测试完成后最终做删除处理。有问题或投稿请发送至: 邮箱/279061341@qq.com QQ/279061341

python如何实现Simhash算法

下载Word文档到电脑,方便收藏和打印~

下载Word文档

猜你喜欢

python如何实现Simhash算法

这篇文章主要介绍python如何实现Simhash算法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!1、simhash步骤simhash包含分词、hash、加权、合并、降维五大步骤simhash代码如下:import
2023-06-29

怎么利用python实现Simhash算法

本文小编为大家详细介绍“怎么利用python实现Simhash算法”,内容详细,步骤清晰,细节处理妥当,希望这篇“怎么利用python实现Simhash算法”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。1. 为什
2023-07-02

浅谈simhash及其python实现

作者原创,转载请注明出处。一直想写个总结来回顾simhash,一直没抽出时间,现在还是好好写写总结一下。作者随笔,废话有点多,不喜勿喷,欢迎指教。谷歌每天从网上抓取海量的信息,怎么样区分重复的呢,据说就采用了simhash算法,当然肯定也不
2023-01-31

Python如何实现KPM算法

这篇文章主要介绍Python如何实现KPM算法,文中介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们一定要看完!知识点说明:先说前缀,和后缀吧比如有一个串:abab则在下标为3处的(前缀和后缀都要比下标出的长度小1,此处下标为3出的长度
2023-06-21

Python如何实现鸡群算法

这篇“Python如何实现鸡群算法”文章的知识点大部分人都不太理解,所以小编给大家总结了以下内容,内容详细,步骤清晰,具有一定的借鉴价值,希望大家阅读完这篇文章能有所收获,下面我们一起来看看这篇“Python如何实现鸡群算法”文章吧。算法简
2023-07-04

Python如何实现蚁群算法

这篇文章将为大家详细讲解有关Python如何实现蚁群算法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。1、引言在自然界中各种生物群体显现出来的智能近几十年来得到了学者们的广泛关注,学者们通过对简单生物体的
2023-06-29

Python查找算法如何实现

本文小编为大家详细介绍“Python查找算法如何实现”,内容详细,步骤清晰,细节处理妥当,希望这篇“Python查找算法如何实现”文章能帮助大家解决疑惑,下面跟着小编的思路慢慢深入,一起来学习新知识吧。查找算法是用来检索序列数据(群体)中是
2023-06-30

基于Python如何实现Hash算法

本篇内容主要讲解“基于Python如何实现Hash算法”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“基于Python如何实现Hash算法”吧!1 前言Simhash的算法简单的来说就是,从海量文
2023-06-29

Python如何实现归一化算法

今天小编给大家分享一下Python如何实现归一化算法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。1.前言
2023-06-29

Python和Matlab如何实现蝙蝠算法

这篇文章主要介绍“Python和Matlab如何实现蝙蝠算法”的相关知识,小编通过实际案例向大家展示操作过程,操作方法简单快捷,实用性强,希望这篇“Python和Matlab如何实现蝙蝠算法”文章能帮助大家解决问题。1 前言蝙蝠算法是201
2023-06-29

Python如何实现聚类K-means算法

今天小编给大家分享一下Python如何实现聚类K-means算法的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。K-means
2023-07-02

如何使用Python实现遗传算法

本篇内容介绍了“如何使用Python实现遗传算法”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!遗传算法是模仿自然界生物进化机制发展起来的随机
2023-07-05

python如何实现高效的遗传算法

小编给大家分享一下python如何实现高效的遗传算法,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!遗传算法属于一种优化算法。如果你有一个待优化函数,可以考虑次算法
2023-06-14

OpenCV-Python如何实现人脸磨皮算法

这篇文章将为大家详细讲解有关OpenCV-Python如何实现人脸磨皮算法,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。人脸磨皮是最基础的人脸美颜效果。主要分为祛斑,祛痘,淡化黑眼圈等步骤。通过前面的学习
2023-06-15

OpenCV-Python如何实现人脸美白算法

这篇文章主要介绍了OpenCV-Python如何实现人脸美白算法,具有一定借鉴价值,感兴趣的朋友可以参考下,希望大家阅读完这篇文章之后大有收获,下面让小编带着大家一起了解一下。人脸美白原理人脸美白原理说透了,就是一种图像的颜色空间处理,所以
2023-06-15

Python如何实现elgamal数字签名算法

要实现ElGamal数字签名算法,可以按照以下步骤:1. 生成密钥对:- 选择一个大素数p作为模数。- 选择一个生成元g,确保g是p的一个原根。- 随机选择一个私钥x,满足0 - 计算公钥y = g^x mod p。2. 签名:- 随机选择
2023-10-10

编程热搜

  • Python 学习之路 - Python
    一、安装Python34Windows在Python官网(https://www.python.org/downloads/)下载安装包并安装。Python的默认安装路径是:C:\Python34配置环境变量:【右键计算机】--》【属性】-
    Python 学习之路 - Python
  • chatgpt的中文全称是什么
    chatgpt的中文全称是生成型预训练变换模型。ChatGPT是什么ChatGPT是美国人工智能研究实验室OpenAI开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列
    chatgpt的中文全称是什么
  • C/C++中extern函数使用详解
  • C/C++可变参数的使用
    可变参数的使用方法远远不止以下几种,不过在C,C++中使用可变参数时要小心,在使用printf()等函数时传入的参数个数一定不能比前面的格式化字符串中的’%’符号个数少,否则会产生访问越界,运气不好的话还会导致程序崩溃
    C/C++可变参数的使用
  • css样式文件该放在哪里
  • php中数组下标必须是连续的吗
  • Python 3 教程
    Python 3 教程 Python 的 3.0 版本,常被称为 Python 3000,或简称 Py3k。相对于 Python 的早期版本,这是一个较大的升级。为了不带入过多的累赘,Python 3.0 在设计的时候没有考虑向下兼容。 Python
    Python 3 教程
  • Python pip包管理
    一、前言    在Python中, 安装第三方模块是通过 setuptools 这个工具完成的。 Python有两个封装了 setuptools的包管理工具: easy_install  和  pip , 目前官方推荐使用 pip。    
    Python pip包管理
  • ubuntu如何重新编译内核
  • 改善Java代码之慎用java动态编译

目录