当前位置:首页 > 上海SEO交流 » 正文:上海SEO小松小谈对AlbertTan的搜索引擎重复内容检测算法

上海SEO小松小谈对AlbertTan的搜索引擎重复内容检测算法

53 人参与  2018年02月25日  分类 : 上海SEO交流     评论     

有重要统计说明,在网络上内容重复的网页数和所有网页之比高达29%之多,而内容模板都相同的的占了22%。在这个数据上看来,网络中有很高的比重网页是相同或者完全相同的。那么搜索引擎怎么去处理呢?爬虫回去抓取识别并计算重复的网页类型的手段有: 

1.不同的URL地址缺指到了同一个网站内容系统或者镜像站点:

如早期的新浪sina.com 和sina.com.cn 指到了相同的站点系统。

2.内容完全相同或者大部分相似:

抄袭、转载、垃圾信息等网站,

那么网页内容重复检查的情况是什么呢,有以下两种情景:

一:用户检索内容的时候

在根据用户所查询的关键词进行索引并排序列出。

二:蜘蛛爬虫抓取的时候

蜘蛛爬虫获取到新的网页内容时,运行去重算法,计算得到是否要对它入库并索引。

搜索引擎大体架构图

搜索引擎大体架构图

上图是搜索引擎爬虫的基本架构,实际上会更为复杂。

相同的网页,可以划分出两个打开来进行判断——内容和网页的样式布局,有以下4中情况:

一:完全重复页面:两个页面内容和样式布局格式完全没有区别。;

二:内容重复页面:两个网页内容上相同,但是样式布局不同; 

三:布局重复页面:两个页面只有部分内容相同,样式布局格式一样; 

四:重要内容重复页面:两个页面只有部分内容相似的,但样式布局格式不同。

那么那些相同的页面是有什么影响呢:

那些大量相似的网页内容,他们只能给用户提供少量的有用信息,甚至不能提供任何有价值的信息,给用户造成反感。同时蜘蛛是会去抓取、建库索引、搜索时,这些都会造成蜘蛛服务器资源的让费。

相同的页面内容对搜索引擎的好处:

另一方面,如果重复的那部分内容,出现的概率很高,这是因为内容很受用户群体的欢迎,暗示这类网页是重要的,蜘蛛应该收录它。用户检索是也需要给他好的投票打分。

重复的网页内容处理方法有下面两点:

1.删除

2.将重复的文档按不同情况分组,

内容重复的页面例子

内容重复的页面例子

搜索引擎近似重复检测流程:

搜索引擎近似重复的页面检测流程

搜索引擎近似重复的页面检测流程

通用网页去重算法框架:

通用网页去重算法结构图

通用网页去重算法结构图

SimHash文档指纹计算方法:

 SimHash文档指纹计算方法

 SimHash文档指纹计算方法

上图内容的说明:

1)首先重内容文字里提前有代表性的内容此块把他们集合起来表示文档内容。如:假设特征都是由词组成的,词的权值由词频TF 来确定。

2)然后对提取出来的没个词组,利用哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图,以生成8位的二进制值为例。这样的话每个词组都可以得到不同的二进制数值了。

3)接着在N维(上图为8维)的向量V中,分别对每一维向量进行计算。如果词相应的比特位的二进制数值为1,则对其特征权值进行加法运算;如果比特位数值为0,则进行减法运算,通过这种方式对向量进行更新。

4)最后所有的词组按照上述步骤出来完成以后,如果向量V中第i维是正数,则将N位的指纹中第i位设置为1,否则为0。

另一个是Jacccard相似性算法:


 Jacccard相似性计算方法

 Jacccard相似性计算方法

如上图,A和B代表2个集合,集合C代表集合A和B相同的部分。 A集合包含5个元素,B集合包含4个元素,而两者相同的元素有2个,即集合C的大小是2. Jaccard计算两个集合相同的元素占总元素的比例。

如图中,集合A和集合B共有7个不同的元素,相同元素个数2个,所以集合A和集合B的相似性为:2/7

在实际应用中,集合A 和 集合B 的特征都会经过哈希计算,转化成N位(64位甚至更多)的二进制数值,从而将集合A和B的相似性比较转化为二进制数值的比较,称为“海明距离”的比较。两个位数相同(如均为64位)相同位置上不同的二进制数值的个数称为“海明距离”。

我们假设文章A,经过特征抽取–哈希指纹运算后的二进制数值是:1 0 0 0 0 0 1 0;假设文章B, 经过特征抽取—哈希指纹运算后的二进制数值是:0 0 1 0 0 0 0 1;经过计算比较,文档A 和 B的 第1位、第3位、第7位、第8位四个位置的数值不同,即海明距离为4. 两个文档的二进制位数不同的个数越多,海明距离越大。海明距离越大,说明两个文档不相似性越大,反之,则越小。

当然了,不同的搜索引擎可能会用不同的海明激励值来判断两个网页内容是否相似or重复。相关分析认为,一般情况下,对一个64位的二进制数值来说,将海明距离<=3作为判断是否近似重复的标准比较合理。

本文作者:AlbertTan


本文地址:http://seoxss.com/mu/s41.html

相关阅读

无相关信息
1楼邓梦娜  2018年09月18日 15:49:21
veryverygood,特别好,写手老师也特别的有耐心,好评,很好,写的快,时,老师就写好了,中间有排版要求老师也尽力配合完,了很多次,谢谢最美丽的你,
顶: 96476 回复
2楼钱慧洁  2018年09月18日 14:55:06
第一次在淘宝购买文章代写老师D452老师特别,服务态度很好。,的牛 文章写得好 而且速度快 非常感谢 下次还会光顾,第一次在淘宝购买文章代写老师D452老师特别,不错,挺好的,态度好,
顶: 43819 回复
3楼竹本英史  2018年09月18日 14:43:07
快,质量也高,很满意,值得推荐!!!下次继续光顾,是一靠谱的中年大叔,哈哈哈,推荐推荐推荐,帮我完成了我很满意帮了我大忙了!,
顶: 94837 回复
4楼徐洋  2018年09月18日 14:07:26
服务。总体还行。,很满意,交稿也快,满足 写的很好 下次有需要还找153号写手老师,
顶: 74723 回复
5楼虢立虎  2018年09月18日 13:52:17
效率提高。。。。。。,写手非常给力 完全懂我的意思 非常容易沟通,拖到申请不了售后开始交文章 交了一篇要不了,
顶: 49199 回复
6楼舒孟丹  2018年09月18日 12:56:29
写手老师写的很不错,也不用催着要,写作速度,写的还可以,最主要的还是得自己更改,才能更加贴合实,理 尤其是153号写手老师 真的很棒 要求都可以,老师写的特别好,文笔很好,文章出的也快,让,写的还可以,最主要的还是得自己更改,才能更加贴合实,
顶: 24497 回复
7楼五十嵐隼士  2018年09月18日 12:41:02
效率提高。。。。。。,很不错?,满足 写的很好 下次有需要还找153号写手老师,
顶: 62822 回复
8楼叶俊杰  2018年09月18日 12:27:00
超级棒!700号写手真的写的简历又快又好!而且,写手老师写的很不错,也不用催着要,写作速度,稿件很满意,下次需要还会再来,
顶: 98087 回复
9楼真殿光昭  2018年09月18日 11:45:28
,很喜欢,感谢老师!,写得很好,说店是他兄弟几个开的我毫无办法?钱我不要差评总能评吧?,拖到申请不了售后开始交文章 交了一篇要不了,
顶: 49176 回复
10楼杨廷玉  2018年09月18日 10:57:10
的的文章我说改又要我价钱 还加250?,老师写的特别好,文笔很好,文章出的也快,让,写手非常给力 完全懂我的意思 非常容易沟通,
顶: 48548 回复
11楼大冢明夫  2018年09月18日 10:42:46
超级棒!700号写手真的写的简历又快又好!而且,我这个人要求比较多,但是他一直很认真的修改,,服务态度很好。,知道我想要的语言与效果 简单的说明我的意思就写出了,
顶: 99788 回复
12楼代智勇  2018年09月18日 10:18:22
写手老师十分可爱,希望她天天开心,理 尤其是153号写手老师 真的很棒 要求都可以,veryverygood,
顶: 91136 回复
13楼武帝萧赜  2018年09月18日 09:53:41
老师真的超级到位文章水平也是一流 特别好很值,知道我想要的语言与效果 简单的说明我的意思就写出了,快,质量也高,很满意,值得推荐!!!下次继续光顾,际,符合工作要求。还算满意,感谢。,
顶: 32069 回复
14楼杨深  2018年09月18日 08:56:09
挺好的,小哥哥很耐心。,很棒棒。很满意,很棒棒。很满意,代写老师人超好,表白一波代写老师。而且写的,
顶: 30177 回复
<< 上一篇 下一篇 >>

上海SEO小松网站优化

近期热门

热门标签

最新文章