当前位置:首页 > SEO教程 » 正文:蜘蛛爬行过程是怎样的?怎样抓取内容?怎么判断内容是否复制?

蜘蛛爬行过程是怎样的?怎样抓取内容?怎么判断内容是否复制?

58 人参与  2018年02月20日  分类 : SEO教程     评论     

蜘蛛一般通过一些预处理手段判断网页内容是否复制、转载,今天我们一起来看一下这个预处理的策略架构

预处理,在SEO相关书籍里也称为“索引”,索引是这个预处理过程里的关键步骤。爬虫抓取原始页面后,是不能直接用于排名计算的。网站时数以万亿的级别计算的,用户输入相关的关键词后,单单靠排名计算程序不可能在一两秒的时间内找到相关的页面并返回的。这就需要预处理来做好前期准备工作,并把数据索引资料入库保存。以供调用,用户才能快速的得到需要的内容,这个处理工作分为下面几部分:

1.提取文字和部分html标签

目前搜索引擎是不能识别css层叠样式和JavaScript程序代码的,主要是以内容为基础,和一些重要的html标签作为识别,如div h1标签等作为排名算法的依据的,这一步一般会去除JavaScript程序和css样式表。当然了还要一些特殊的标签图meta、img标签里的alt,flash替代文字好锚文本文字等等是能识别的。

2.中文分词

搜索引擎处理页面文字内是以词作为基础的,搜索引擎首先分辨出哪一些字可以组合成一个词,这背后有一个词库作为支撑的,它把句子划分为词组,并判断句子是否相关。分词比如“减肥方法”分成减肥和方法两个词。

这个词库的建立一个是基于词典录入的匹配,还有一个是基于大数据分析处理的,也就是用户的搜索统计而来,再入库保存。

  这些词语的匹配方法按照方向划分,可以分为正向匹配和逆向匹配;按长度优先可以分为最大匹配和最小匹配;将方向和长度优先混合,又可以扩展出正向最大匹配和逆向最大匹配等不同的匹配方法。总之,这些操作都是为了找出内容的相关性与相似度。

3.去停止词

  在一篇文章中,不论是中文还是英文内容,都会有一些出现频率恨到的词语,这些词语的去除对内容意思是不会影响的。那这些词是什么呢?比如有“的”、“地”、“得”之类的助词,“啊”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词。这些词在计算的角度上叫做停止词,而英文中的出现频率高的停止词有the,a,an,to,of等。搜索引擎先去除这些无用的词,减少了无用词的判断,节省了计算时间。

4.消除噪声

对应页面上有一些内容块的有无对主内容是没有影响的,他们通常是没有意义的,这些区块就是噪声,不消除噪声,容易造成页面主题分散了,当消除噪声后,剩下的才是页面的主体内容。比如版权的声明文字信息,导航条、广告内信息、历史查看信息,这些区块就是噪声。那么搜索引擎识别噪声的方法是什么呢?他是根据html标签对页面进行分块,划分页头、页脚、导航条、广告区块等。

5.去重

去重这步是很重要的,一篇文章经常会重复的出现于不同的网站或者同一个网站内的不同地址,搜索引擎对这种重复的内容是很反感的。同时,用户的检索结果如果出现大量是同一篇文章的话,虽然内容相关的,但是用户不能获取更多有价值的信息,体验就很差了。所以搜索引擎要删除内容一样的文章记录。

  它的基本算法是对内容关键词计算指纹,通过对句子的分词、去除停止词并消除噪声之后取出内容中最有代表性的那部分词语,进行计算这些关键词的数字指纹,典型的文章指纹算法有MD5算法,Jacccard相似性算法。在加上搜索引擎不仅是对页面级别计算,还有段落级别上的计算,甚至对单句计算,所以怎么混合文章、交叉替换段落顺序,转载、复制的文章都很难变成原创文章。

6.正向索引

  一个页面经过了以上的过滤:文字提取、分词处理、消除噪声、去重后搜索引擎能够得到独特的、能体现出页面的主体信息,下一个操作就能对它提取关键词,划分关键词,把页面转成为关键词集合、同时标注出每一个词在页面中出现的次数与频率、对应的html标签格式,以及它的所在位置。这样一篇文章的核心就被搜索引擎记录下来了,然后把它存储到索引库中,并且有自己的id编号,这就是正向索引。

7.倒排索引

正向索引还不能直接用于排名。假设用户搜索关键词2,如果只存在正向索引,排名程序需要扫描所有索引库中的文件,找出包含关键词2的文件,再进行相关性计算。这样的计算量无法满足实时返回排名结果的要求。

倒排索引,关键词对应多个文件

            倒排索引,关键词对应多个文件


我们知道网页是数以万亿计算的,如果只是用正向索引的话,排序程序就需要去扫描索引库里的所有文件,才能找出对应的关键词内容,这样的话计算量是很庞大的、效率是非常低,是不能实现实时返回内容的要求,所以正向索引后不能直接用于排名的。对应的解决办法是将正向索引的数据库重新构造,转成倒排索引。就是把文件对应关键词的映射关系转换成关键词对文件的映射关系。

  倒排索引库中关键词对应的栏目为主键,对应的是一系列文件,这是一对多的关系,当用户搜索某个关键词的时候,排序程序在倒排索引库中查询读取该关键词对应的所有文件,这样一个结构计算量大大减少,查询效率也就上去了。

8.链接关系计算

链接关系是搜索引擎中很重要的一块功能,现在主流的搜索排名算法都含有对网页间链接关系流动的计算,爬虫在下载页面后,就开始计算页面中哪些链接指向了哪些页面去,某个页面有哪一些导入的链接,链接使用什么锚文本内容,这些就是网站和页面的链接权重信息。其中google就是使用pagerank这个参数表示。

9.特殊文件处理

在网站中,除了HTML页面外,搜索引擎还可以抓取并索引其它多种文件类型,这些大部分是以文字信息文件为主,比如word、wps、ppt、pdf、txt文件等等。相信你在日常搜索使用中就曾经碰到过。图片的识别是近几年慢慢的提高的,虽然有时还有些欠缺,但是一直在进步完善中。

本文地址:http://seoxss.com/mu/l34.html

相关阅读

<< 上一篇 下一篇 >>

上海SEO小松网站优化

近期热门

热门标签

最新文章