当前位置:首页 > SEO教程 » 正文:上海SEO小松谈搜索引擎工作原理是什么?

上海SEO小松谈搜索引擎工作原理是什么?

54 人参与  2018年02月20日  分类 : SEO教程     评论     

对于搜索引擎的工作原理是非常复杂的,这里我们简单的介绍了搜索引擎工作的基本框架。

image.png

蜘蛛

  搜索引擎爬虫程序,爬行url访问页面的称之为蜘蛛(spider),也是机器人(bot)。

1、爬行和抓取:

这是第一步,主要完成数据的收集,爬虫通过url链接去访问互联网的网站页面内容,爬行各大网站,抓取网页内容。

2、预处理:

爬虫抓取到内容后,对页面里的文章进行提取、分词、过滤、索引等操作,以供索引器调用处理。

3、排名:

用户通过输入框搜索关键词后,搜索引擎分析相关性后,根据索引库查询读取再生成一个排序结果的列表。

4、几个蜘蛛代理名称(User-Agent):

  百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm) 

  雅虎中国蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html) 

  英文雅虎蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp/3.0;http://help.yahoo.com/help/us/ysearch/slurp)

  Google 蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) 

  微软 Bing 蜘蛛:msnbot/1.1 (+http://search.msn.com/msnbot.htm)

  搜狗蜘蛛: Sogou+web+robot+(+http://www.sogou.com/docs/help/webmasters.htm#07) 

  搜搜蜘蛛:Sosospider+(+http://help.soso.com/webspider.htm) 

有道蜘蛛:Mozilla/5.0 (compatible; YodaoBot/1.0; http://www.yodao.com/help/webmaster/spider/; )

5、跟踪链接

爬虫程序在网络上获取页面时,会下载一个页面,然后分析出里面的链接,在从链接爬行到下一个页面。这过程犹如蜘蛛在蜘蛛网上爬行的样子,所有用蜘蛛来形象的给搜索引擎取了别名。通常爬虫遍历策略有两种:深度优先和广度优先。

6、深度优先搜索

这个爬行过程是一层一层的深入。即在搜索树的每个节点上只扩展一个子节点,一个个节点的不断深入爬去,知道没有节点后即达到叶子节点了,才从当前节点返回到上一个节点,在沿着另外一个方向继续爬行。大体就是从树根开始,从一个方向爬到叶子节点。它也称为纵向搜索,这个策略是不完备的,应为可能从一个有问题的节点开始会爬行到无穷分节点的可能,而导致找不到目标节点,这样的策略得到的可能不是最佳的解(最短路径计算)。

7、广度优先搜索

与深度算法刚好相反,它需要把本层的节点全部爬取完毕了,才会对下一层节点进行爬取,就是深度越小的节点越先得到扩展,这急速广度优先搜索。

8、吸引蜘蛛

  蜘蛛喜欢什么页面呢,它们认为什么比较重要呢?有一下几方面的影响:

①网站及页面权重

页面质量好、信任的高的老站被认为权重高,这种网站上的页面被蜘蛛爬行的深度会比较高,所以收录的页面也多。

②页面更新频率

蜘蛛每次爬行页面后,都会存储它的数据作为缓存,当第二次来时发现页面的内容和缓存的一样,判断为未更新,蜘蛛就不会经常来抓取了;相反的如果发现页面更新的频率很高,页面上有新的连接出现,它自然会更勤快的下载页面内容并更新。

③导入连接

导入连接即是网站的外链和网站的内链地址集合,蜘蛛都是通过这些连接进入相应的页面里进行下载的,如果没有链接,蜘蛛是没有机会获取对应的页面的。那些高质量的导入连接也会是蜘蛛的爬行深度增加的。从站内的角度看,首页的权重最高,大部分链接都有指向首页,蜘蛛抓取首页也就最频繁了,离首页越近当然分布到的权重也就越高,蜘蛛爬行的机会也是越大的。

9、地址库

就是用来存放爬行过的url网址,可以避免重复爬行。也可以防将要被蜘蛛爬取的地址。一般地址库的地址有以下几个来源:

  (1)人工录入的种子网站。

  (2)蜘蛛抓取页面后,从HTML中解析出新的链接uRL,与地址库中的数据进行对比,如果是地址库中没有的网址,就存入待访问地址库。

  (3)站长通过搜索引擎网页提交表格提交进来的网址。

  蜘蛛按重要性从待访问地址库中提取uRL,访问并抓取页面,然后把这个uRL从待访问地址库中删除,放进已访问地址库中。

(4)搜索引擎通过sitemap入口,让站长提交地址。

10、爬行时的复制内容检测

爬行下载的页面内容,蜘蛛会通过一些与处理计算,来判断内容是否复制的检测,对于那些权重很低的网站,大量的从网上抄袭内容、转载内容是,蜘蛛就可能不会继续爬取了,这也就是站长从日志中发现了蜘蛛抓取,但是页面却从来没有收录的原因。

11、排名

蜘蛛抓取页面后,通过一些列的处理,合格的页面内容,搜索引擎程序进行就是得到倒排索引后,会进行保存入库,以备用户搜索查询内容。当用户搜索想要的关键词对应的内容时,搜索引擎电泳数据,计算排名,以列表的形式展现给用户,让用户选择查看。这个顺序就是排名,这个名次会根据用户选择(受众)和搜索引擎算法(网站权重变化、网站稳定性等)综合计算而修改排序。

本文地址:http://seoxss.com/mu/l31.html

相关阅读

【二四六】关键词和页面内容的相关性,搜索引擎是如何判断的?

在日常工作中需要对搜索引擎的常用指令的秘密有所了解

上海SEO小松小谈对AlbertTan的搜索引擎重复内容检测算法

1楼妫越  2018年07月22日 13:41:57
要是能够结合主题写得有特色更出彩的话就更好了,第一次找这家帮忙写东西,,有文化不一样啊!哈哈,非常棒,以后有需要修改还会来。,
顶: 78833 回复
2楼完颜永济  2018年07月22日 13:09:23
写的完全百度照抄,,方便,快捷,,但是就是写的不太满意,,改一次改的也不满意我就自己改了&,昨天提交的订单要求周五写完,
顶: 90853 回复
3楼时茜茜  2018年07月22日 12:55:52
超乎想象了 写作能力强就是厉害,非常棒,以后有需要修改还会来。,文笔差到极致!生气。,方便,快捷,我要写的是一篇演讲稿!写,
顶: 61960 回复
4楼薛媛  2018年07月22日 12:52:04
非常棒,以后有需要修改还会来。,一颗星都不想给 好生气????????????????????????????,跟我要求的差不多,文笔还不错,,
顶: 39843 回复
5楼罗嘉良  2018年07月22日 12:19:09
淘宝第一次给差评!,,写的文章真棒的,很喜欢她写的文章,,就自己写了,等于自己重写了一篇,,第一次找代笔,我不会再相信网络代笔了,如果需要你复制粘贴!我还花钱找人写嘛呢???,
顶: 79521 回复
6楼惠能  2018年07月22日 11:48:12
说实话真的很满意,写手老师很热情,,老师有耐心,很早就起来修改,效率高,质量不错。,超乎想象了 写作能力强就是厉害,是一个姑娘写的 文笔很不错值得信赖,D300这个写手老师写的真好的,态度也好,
顶: 20516 回复
7楼蔡依林  2018年07月22日 11:02:55
文笔差到极致!生气。,。交稿时间准时。,就是把我自己的稿子复制粘贴到他的稿子中去,,但是就是写的不太满意,,如果需要你复制粘贴!我还花钱找人写嘛呢???,
顶: 17337 回复
8楼岳冰洋  2018年07月22日 10:44:09
五百字收60 我感觉还不去我自己写的,,如果不要期望太高或者完成任务是OK的。,我要求写的与我实际工作有些联系,,文笔差到极致!生气。,
顶: 69599 回复
9楼雷明  2018年07月22日 10:28:13
基本没有大改动 因为初稿就很好了,我要写的是一篇演讲稿!写,如果不要期望太高或者完成任务是OK的。,演讲拿了全校二等奖 但是卖家态度确实很好,写手老师相当厉害水平非常之高,,
顶: 21119 回复
10楼戴安庆  2018年07月22日 10:26:54
昨天提交的订单要求周五写完,第一次找代笔,我不会再相信网络代笔了,超棒!在有限的时间里写完了~,,写的文章真棒的,很喜欢她写的文章,,是一个姑娘写的 文笔很不错值得信赖,
顶: 32576 回复
11楼周远航  2018年07月22日 09:55:00
超棒!在有限的时间里写完了~,特别好 点赞,就把自己写的稿子发给他!,
顶: 93514 回复
12楼李杨柳  2018年07月22日 08:58:18
我要求写的与我实际工作有些联系,,就自己写了,等于自己重写了一篇,,。没想到写手很用心,帮忙纠正,也很耐心,,但是就是写的不太满意,,说实话真的很满意,写手老师很热情,,
顶: 71308 回复
<< 上一篇 下一篇 >>

上海SEO小松网站优化

近期热门

热门标签

最新文章