simhash 算法计算两篇文章相似度

原创 154阅读 · 时间2019年6月6日 09:14

在当今互联网中原创文章少之又少,大部分都是抄来抄去,为了避免此,需要对互联网的上文章、文字等进行去重和过滤!


今天用SimHash算法来看看如何比较两段文字的相似度。


SimHash算法

simhash算法的主要思想是降维,将高维的特征向量映射成一个f-bit的指纹(fingerprint),通过比较两篇文章的f-bit指纹的Hamming Distance来确定文章是否重复或者高度近似。


主要分以下几步:

1、抽取文本中的关键词及其权重。

2、对关键词取传统hash,并与权重叠加,算出文本的fingerprint值。

3、计算出两个文本之间fingerprint值的海明距离。

#coding:utf8
import math
import jieba
import jieba.analyse
class SimHash(object):
    def __init__(self):
        pass
    def getBinStr(self, source):
        if source == "":
            return 0
        else:
            x = ord(source[0]) << 7
            m = 1000003
            mask = 2 ** 128 - 1
            for c in source:
                x = ((x * m) ^ ord(c)) & mask
            x ^= len(source)
            if x == -1:
                x = -2
            x = bin(x).replace('0b', '').zfill(64)[-64:]
            print(source, x)
            return str(x)
    def getWeight(self, source):
        # fake weight with keyword
        return ord(source)
    def unwrap_weight(self, arr):
        ret = ""
        for item in arr:
            tmp = 0
            if int(item) > 0:
                tmp = 1
            ret += str(tmp)
        return ret
    def simHash(self, rawstr):
        seg = jieba.cut(rawstr, cut_all=True)
        keywords = jieba.analyse.extract_tags("|".join(seg), topK=100, withWeight=True)
        print(keywords)
        ret = []
        for keyword, weight in keywords:
            binstr = self.getBinStr(keyword)
            keylist = []
            for c in binstr:
                weight = math.ceil(weight)
                if c == "1":
                    keylist.append(int(weight))
                else:
                    keylist.append(-int(weight))
            ret.append(keylist)
        # 对列表进行"降维"
        rows = len(ret)
        cols = len(ret[0])
        result = []
        for i in range(cols):
            tmp = 0
            for j in range(rows):
                tmp += int(ret[j][i])
            if tmp > 0:
                tmp = "1"
            elif tmp <= 0:
                tmp = "0"
            result.append(tmp)
        return "".join(result)
    def getDistince(self, hashstr1, hashstr2):
        length = 0
        for index, char in enumerate(hashstr1):
            if char == hashstr2[index]:
                continue
            else:
                length += 1
        return length
if __name__ == "__main__":
    a = 0
    while True:
        yuliao = ['我的文章', '我发布的文章', '我发布的第二篇文章', '这是我发布的第一篇文章!']
        simhash = SimHash()
        s1 = "这是我发布的第一篇文章!"
        s2 = yuliao[a]
        hash1 = simhash.simHash(s1)
        hash2 = simhash.simHash(s2)
        distince = simhash.getDistince(hash1, hash2)
        value = 5
        print("海明距离:", distince, "判定距离:", value, "是否相似:", distince<=value)
        a+=1
        if distince<=value:
            print("xiangsi")
            break
        if a>=len(yuliao):
            break


目前这个程序还是demo, 可加上语料库,然后用其算法达到查重去伪原创目的。


前程路漫漫。




评论

本站升级中... 如有好的建议请加入QQ群!

相关文章推荐 ?
近七日热文推荐 !
回到顶部