当前位置:首页 > 上海SEO交流 » 正文:上海SEO小松小谈对AlbertTan的搜索引擎重复内容检测算法

上海SEO小松小谈对AlbertTan的搜索引擎重复内容检测算法

52 人参与  2018年02月25日  分类 : 上海SEO交流     评论     

有重要统计说明,在网络上内容重复的网页数和所有网页之比高达29%之多,而内容模板都相同的的占了22%。在这个数据上看来,网络中有很高的比重网页是相同或者完全相同的。那么搜索引擎怎么去处理呢?爬虫回去抓取识别并计算重复的网页类型的手段有: 

1.不同的URL地址缺指到了同一个网站内容系统或者镜像站点:

如早期的新浪sina.com 和sina.com.cn 指到了相同的站点系统。

2.内容完全相同或者大部分相似:

抄袭、转载、垃圾信息等网站,

那么网页内容重复检查的情况是什么呢,有以下两种情景:

一:用户检索内容的时候

在根据用户所查询的关键词进行索引并排序列出。

二:蜘蛛爬虫抓取的时候

蜘蛛爬虫获取到新的网页内容时,运行去重算法,计算得到是否要对它入库并索引。

搜索引擎大体架构图

搜索引擎大体架构图

上图是搜索引擎爬虫的基本架构,实际上会更为复杂。

相同的网页,可以划分出两个打开来进行判断——内容和网页的样式布局,有以下4中情况:

一:完全重复页面:两个页面内容和样式布局格式完全没有区别。;

二:内容重复页面:两个网页内容上相同,但是样式布局不同; 

三:布局重复页面:两个页面只有部分内容相同,样式布局格式一样; 

四:重要内容重复页面:两个页面只有部分内容相似的,但样式布局格式不同。

那么那些相同的页面是有什么影响呢:

那些大量相似的网页内容,他们只能给用户提供少量的有用信息,甚至不能提供任何有价值的信息,给用户造成反感。同时蜘蛛是会去抓取、建库索引、搜索时,这些都会造成蜘蛛服务器资源的让费。

相同的页面内容对搜索引擎的好处:

另一方面,如果重复的那部分内容,出现的概率很高,这是因为内容很受用户群体的欢迎,暗示这类网页是重要的,蜘蛛应该收录它。用户检索是也需要给他好的投票打分。

重复的网页内容处理方法有下面两点:

1.删除

2.将重复的文档按不同情况分组,

内容重复的页面例子

内容重复的页面例子

搜索引擎近似重复检测流程:

搜索引擎近似重复的页面检测流程

搜索引擎近似重复的页面检测流程

通用网页去重算法框架:

通用网页去重算法结构图

通用网页去重算法结构图

SimHash文档指纹计算方法:

 SimHash文档指纹计算方法

 SimHash文档指纹计算方法

上图内容的说明:

1)首先重内容文字里提前有代表性的内容此块把他们集合起来表示文档内容。如:假设特征都是由词组成的,词的权值由词频TF 来确定。

2)然后对提取出来的没个词组,利用哈希算法生成N位(通常情况是64位或更多)的二进制数值,如上图,以生成8位的二进制值为例。这样的话每个词组都可以得到不同的二进制数值了。

3)接着在N维(上图为8维)的向量V中,分别对每一维向量进行计算。如果词相应的比特位的二进制数值为1,则对其特征权值进行加法运算;如果比特位数值为0,则进行减法运算,通过这种方式对向量进行更新。

4)最后所有的词组按照上述步骤出来完成以后,如果向量V中第i维是正数,则将N位的指纹中第i位设置为1,否则为0。

另一个是Jacccard相似性算法:


 Jacccard相似性计算方法

 Jacccard相似性计算方法

如上图,A和B代表2个集合,集合C代表集合A和B相同的部分。 A集合包含5个元素,B集合包含4个元素,而两者相同的元素有2个,即集合C的大小是2. Jaccard计算两个集合相同的元素占总元素的比例。

如图中,集合A和集合B共有7个不同的元素,相同元素个数2个,所以集合A和集合B的相似性为:2/7

在实际应用中,集合A 和 集合B 的特征都会经过哈希计算,转化成N位(64位甚至更多)的二进制数值,从而将集合A和B的相似性比较转化为二进制数值的比较,称为“海明距离”的比较。两个位数相同(如均为64位)相同位置上不同的二进制数值的个数称为“海明距离”。

我们假设文章A,经过特征抽取–哈希指纹运算后的二进制数值是:1 0 0 0 0 0 1 0;假设文章B, 经过特征抽取—哈希指纹运算后的二进制数值是:0 0 1 0 0 0 0 1;经过计算比较,文档A 和 B的 第1位、第3位、第7位、第8位四个位置的数值不同,即海明距离为4. 两个文档的二进制位数不同的个数越多,海明距离越大。海明距离越大,说明两个文档不相似性越大,反之,则越小。

当然了,不同的搜索引擎可能会用不同的海明激励值来判断两个网页内容是否相似or重复。相关分析认为,一般情况下,对一个64位的二进制数值来说,将海明距离<=3作为判断是否近似重复的标准比较合理。

本文作者:AlbertTan


本文地址:http://seoxss.com/mu/s41.html

相关阅读

1楼夏桀  2018年07月22日 13:03:34
好评好评。夏木老师写得好快。而且写得很好,老师写的非常好,特别快 真的帮了很大的忙,者帮我改了五次,很认真,谢谢,写的还是很不错的,应该可以获一个奖,哈哈哈,
顶: 61346 回复
2楼王赏  2018年07月22日 12:46:24
写的挺好的,内容都是我用的上的!条理很清晰,老,写手说写手也马上给我加好发过来了。,者帮我改了五次,很认真,谢谢,简单有效!,得到一个深刻的体会,人不能懒,还是得自己亲,
顶: 27864 回复
3楼洪子大  2018年07月22日 12:04:18
245写手文字功底深厚,写得好!而且非常随和、有耐心。,满意的体验 对N354-150的文采和服务更为满意,,但是賣家很快就提出解決方案,問題迅速解決,
顶: 16443 回复
4楼樊春慈  2018年07月22日 11:31:14
文章按要求完成,思路清晰,润色到位,形,我写的文案,真的很满意,文案里看的出她的用功,服务态度好 有问题依然认真解答,
顶: 78086 回复
5楼来济  2018年07月22日 11:16:27
写文章很快 质量也挺好的 good,学的都还可以各方面!好评,,全部摘抄,没有自己核心思想和理解能力。,
顶: 29158 回复
6楼天之霸王  2018年07月22日 10:51:29
容贴切,棒棒哒??,很一般,最后说了要给我再改改也拖拖拖,,拖到收货不改了,呵呵。我觉得我是太好说话了,这里真的比我在别的地方好多了。下次,
顶: 52871 回复
<< 上一篇 下一篇 >>

上海SEO小松网站优化

近期热门

热门标签

最新文章