当前位置:首页 > SEO教程 » 正文:上海SEO小松谈搜索引擎工作原理是什么?

上海SEO小松谈搜索引擎工作原理是什么?

49 人参与  2018年02月20日  分类 : SEO教程     评论     

对于搜索引擎的工作原理是非常复杂的,这里我们简单的介绍了搜索引擎工作的基本框架。

image.png

蜘蛛

  搜索引擎爬虫程序,爬行url访问页面的称之为蜘蛛(spider),也是机器人(bot)。

1、爬行和抓取:

这是第一步,主要完成数据的收集,爬虫通过url链接去访问互联网的网站页面内容,爬行各大网站,抓取网页内容。

2、预处理:

爬虫抓取到内容后,对页面里的文章进行提取、分词、过滤、索引等操作,以供索引器调用处理。

3、排名:

用户通过输入框搜索关键词后,搜索引擎分析相关性后,根据索引库查询读取再生成一个排序结果的列表。

4、几个蜘蛛代理名称(User-Agent):

  百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm) 

  雅虎中国蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 

  英文雅虎蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp)

  Google 蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 

  微软 Bing 蜘蛛:msnbot/1.1 (+http://search.msn.com/msnbot.htm)

  搜狗蜘蛛: Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07) 

  搜搜蜘蛛:Sosospider+(+http://help.soso.com/webspider.htm) 

有道蜘蛛:Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )

5、跟踪链接

爬虫程序在网络上获取页面时,会下载一个页面,然后分析出里面的链接,在从链接爬行到下一个页面。这过程犹如蜘蛛在蜘蛛网上爬行的样子,所有用蜘蛛来形象的给搜索引擎取了别名。通常爬虫遍历策略有两种:深度优先和广度优先。

6、深度优先搜索

这个爬行过程是一层一层的深入。即在搜索树的每个节点上只扩展一个子节点,一个个节点的不断深入爬去,知道没有节点后即达到叶子节点了,才从当前节点返回到上一个节点,在沿着另外一个方向继续爬行。大体就是从树根开始,从一个方向爬到叶子节点。它也称为纵向搜索,这个策略是不完备的,应为可能从一个有问题的节点开始会爬行到无穷分节点的可能,而导致找不到目标节点,这样的策略得到的可能不是最佳的解(最短路径计算)。

7、广度优先搜索

与深度算法刚好相反,它需要把本层的节点全部爬取完毕了,才会对下一层节点进行爬取,就是深度越小的节点越先得到扩展,这急速广度优先搜索。

8、吸引蜘蛛

  蜘蛛喜欢什么页面呢,它们认为什么比较重要呢?有一下几方面的影响:

①网站及页面权重

页面质量好、信任的高的老站被认为权重高,这种网站上的页面被蜘蛛爬行的深度会比较高,所以收录的页面也多。

②页面更新频率

蜘蛛每次爬行页面后,都会存储它的数据作为缓存,当第二次来时发现页面的内容和缓存的一样,判断为未更新,蜘蛛就不会经常来抓取了;相反的如果发现页面更新的频率很高,页面上有新的连接出现,它自然会更勤快的下载页面内容并更新。

③导入连接

导入连接即是网站的外链和网站的内链地址集合,蜘蛛都是通过这些连接进入相应的页面里进行下载的,如果没有链接,蜘蛛是没有机会获取对应的页面的。那些高质量的导入连接也会是蜘蛛的爬行深度增加的。从站内的角度看,首页的权重最高,大部分链接都有指向首页,蜘蛛抓取首页也就最频繁了,离首页越近当然分布到的权重也就越高,蜘蛛爬行的机会也是越大的。

9、地址库

就是用来存放爬行过的url网址,可以避免重复爬行。也可以防将要被蜘蛛爬取的地址。一般地址库的地址有以下几个来源:

  (1)人工录入的种子网站。

  (2)蜘蛛抓取页面后,从HTML中解析出新的链接uRL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。

  (3)站长通过搜索引擎网页提交表格提交进来的网址。

  蜘蛛按重要性从待访问地址库中提取uRL,访问并抓取页面,然后把这个uRL从待访问地址库中删除,放进已访问地址库中。

(4)搜索引擎通过sitemap入口,让站长提交地址。

10、爬行时的复制内容检测

爬行下载的页面内容,蜘蛛会通过一些与处理计算,来判断内容是否复制的检测,对于那些权重很低的网站,大量的从网上抄袭内容、转载内容是,蜘蛛就可能不会继续爬取了,这也就是站长从日志中发现了蜘蛛抓取,但是页面却从来没有收录的原因。

11、排名

蜘蛛抓取页面后,通过一些列的处理,合格的页面内容,搜索引擎程序进行就是得到倒排索引后,会进行保存入库,以备用户搜索查询内容。当用户搜索想要的关键词对应的内容时,搜索引擎电泳数据,计算排名,以列表的形式展现给用户,让用户选择查看。这个顺序就是排名,这个名次会根据用户选择(受众)和搜索引擎算法(网站权重变化、网站稳定性等)综合计算而修改排序。

本文地址:http://seoxss.com/mu/l31.html

相关阅读

在日常工作中需要对搜索引擎的常用指令的秘密有所了解

上海SEO小松小谈对AlbertTan的搜索引擎重复内容检测算法

目前主流的搜索引擎有那些?我们应该怎么什么入手

<< 上一篇 下一篇 >>

上海SEO小松网站优化

近期热门

热门标签

最新文章