十年专注于品牌网站建设 十年专注于品牌网站建设,低调、有情怀的网络应用服务商!
南昌百恒网络微信公众号 扫一扫关注
小程序
tel-icon全国服务热线:400-680-9298,0791-88117053
扫一扫关注百恒网络微信公众号
扫一扫打开百恒网络微信小程序

百恒网络

南昌百恒网络

图文结合介绍搜索引擎抓取策略

百恒网络 2016-12-07 893

搜索引擎对网页的抓取实际上就是在互联网上进行数据采集,这是搜索引擎最基础的工作。搜索引擎的数据采集能力直接决定了搜索引擎可提供的信息量及对互联网覆盖的范围,从而影响搜索引擎查询结果的质量。因此,搜索引擎总是想方设法地提高它的数据采集能力。索引擎利用数据采集程序在互联网上抓取数据,我们称这个数据采集程序为蜘蛛程序或者机器人程序。

本文首先会介绍搜索引擎抓取页面的流程及方式,再介绍搜索引擎对已抓取页面的存储及维护方式。

1. 页面抓取流程

在互联网中,URL是每个页面的入口地址,搜索引擎蜘蛛程序就是通过URL抓取到页面的。搜索引擎蜘蛛程序从原始URL列表出发,通过URL抓取并存储原始页面;同时,提取原始页面中的URL资源并加入到URL列表中。如此不断地循环,就可以从互联网中获取到足够多的页面,如图所示。

搜索引擎抓取页面简单流程

图 搜索引擎抓取页面简单流程

URL是页面的入口,而域名则是一个网站的入口。搜索引擎蜘蛛程序通过域名进入网站,从而展开对网站页面的抓取。换言之,搜索引擎要在互联网上抓取到页面的首要任务就是建立一个足够大的原始域名列表,再通过域名进入相应的网站,从而抓取这个网站中的页面。

而对于网站来说,如果想要被搜索引擎收录,首要的条件就是加入搜索引擎的域名列表。下面由南昌网站制作公司百恒网络SEO专员向大家介绍两种常用的加入搜索引擎域名列表的方法。

第一,利用搜索引擎提供的网站登录入口,向搜索引擎提交网站的域名。例如,Google的网站登录地址是http://www.google.com/addurl/2。对于提交的域名列表,搜索引擎只会定期进行更新。因此,这种做法比较被动,从域名提交到网站被收录花费的时间也比较长。以下是主流中文搜索引擎的网站提交入口。

在实际中,我们只需要提交网站的首页地址或者网站的域名,搜索引擎就会跟踪首页中的链接去抓取其他页面。

百度:http://www.baidu.com/search/url_submit.htm。

360:http://info.so.360.cn/site_submit.html。

搜狗:http://www.sogou.com/feedback/urlfeedback.php。

Google:http://www.google.com/addurl/(需要注册使开通站长工具才能提交)。

第二,通过与外部网站建立链接关系,使搜索引擎可以通过外部网站发现我们的网站,从而实现对网站的收录。这种做法主动权掌握在我们自己的手里(只要我们拥有足够多高质量的链接即可),而且收录速度也比向搜索引擎主动提交要快得多。视乎外部链接的数量、质量及相关性,一般情况下,2~7天左右就会被搜索引擎收录。

2. 页面抓取

通过上面的介绍,相信读者已经掌握了加快网站被搜索引擎收录的方法。然而,怎样才能提高网站中页面被收录的数量呢?这就要从了解搜索引擎收录页面的工作原理开始。

如果把网站页面组成的集合看作是一个有向图,从指定的页面出发,沿着页面中的链接,按照某种特定的策略对网站中的页面进行遍历。不停地从URL列表中移出已经访问过的URL,并存储原始页面,同时提取原始页面中的URL信息;再将URL分为域名及内部URL两大类,同时判断URL是否被访问过,将未被访问过的URL加入URL列表中。递归地扫描URL列表,直至耗尽所有URL资源为止。经过这些工作,搜索引擎就可以建立庞大的域名列表、页面URL列表及存储足够多的原始页面。

3. 页面抓取方式

通过以上内容,大家已经了解了搜索引擎抓取页面的流程及原理。然而,在互联网数以亿计的页面中,搜索引擎怎样才能从中抓取到更多相对重要的页面呢?这就涉及搜索引擎的页面抓取方式问题。

页面抓取方式是指搜索引擎抓取页面时所使用的策略,目的是为了能在互联网中筛选出更多相对重要的信息。页面抓取方式的制定取决于搜索引擎对网站结构的理解。如果使用相同的抓取策略,搜索引擎在同样的时间内可以在某一网站中抓取到更多的页面资源,则会在该网站上停留更长的时间,抓取的页面数自然也就更多。因此,加深对搜索引擎页面抓取方式的认识,有利于为网站建立友好的结构,增加页面被抓取的数量。

常见的搜索引擎抓取页面的方式主要有广度优先、深度优先、大站优先、高权重优先、暗网抓取及用户提交等,接下来将详细介绍这几种页面抓取方式及其优缺点。

广度优先

如果把整个网站看作是一棵树,首页就是根,每个页面就是叶子。广度优先是一种横向的页面抓取方式,先从树的较浅层开始抓取页面,直至抓取完同一层次上的所有页面后才进入下一层。因此,在对网站进行优化的时候,我们应该把网站中相对重要的信息展示在层次较浅的页面上(例如,在首页上推荐一些热门产品或者内容)。因此,通过广度优先的抓取方式,搜索引擎就可以优先抓取到网站中相对重要的页面。

我们来看一下广度优先的抓取流程。首先,搜索引擎从网站的首页出发,抓取首页上所有链接指向的页面,形成页面集合(A),并解析出集合(A)中所有页面的链接;再跟踪这些链接抓取下一层的页面,形成页面集合(B)。就这样递归地从浅层页面中解析出链接,从而抓取深层页面,直至满足了某个设定的条件后才停止抓取进程,如图所示。

广度优先抓取流程

广度优先抓取流程

深度优先

与广度优先的抓取方式恰恰相反,深度优先是一种纵向的页面抓取方式,首先跟踪的是浅层页面中的某一个链接,从而逐步抓取深层次页面,直至抓取完最深层次的页面后才返回浅层页面继续向深层页面抓取。使用深度优先的抓取方式,搜索引擎可以抓取到网站中比较隐蔽、冷门的页面,这样才能满足更多用户的需求。

我们来看一下深度优先的抓取流程。首先,搜索引擎会抓取网站的首页,并提取首页中的链接;再沿着其中的一个链接抓取到页面,同时提取其中的链接;接着,沿着页面1-1中的一个链接A-1抓取到页面2-1,同时提取其中的链接;再沿着页面2-1中的一个链接B-1继续抓取更深一层的页面。这样递归地执行,直至抓取到网站最深层的页面或者满足了某个设定的条件才转回到首页继续抓取,如图所示。

深度优先抓取流程

深度优先抓取流程

大站优先

由于大型网站比小型网站更有可能提供更多更有价值的内容,因此,如果搜索引擎优先抓取大型网站中的网页,那么就可以在更短的时间内为用户提供更有价值的信息。大站优先,顾名思义就是对互联网中大型网站的页面进行优先抓取,是搜索引擎中的一种信息抓取策略。

怎样识别所谓的大型网站呢?一是前期人工整理大站种子资源,通过大站发现其他的大站;二是对已经索引的网站进行系统的分析,从而识别那些内容丰富、规模较大、信息更新频繁的网站。

在完成大站识别后,搜索引擎就会对URL资源列表中大站的页面进行优先抓取。这也是为什么大型网站往往会比小站内容抓取更及时的原因之一。 高

权重优先

权重,简单地说就是搜索引擎对网页重要性的一种评定。所谓的重要性归根到底就是网站或者网页的信息价值。

高权重优先是对URL资源列表中的高权重网页进行优先抓取的网页抓取策略。网页权重(如Google PageRank值)高低往往是由诸多因素决定的,例如,网页的外部链接数量及质量。如果下载一个URL就重新计算所有已下载URL资源的权重值,这样的效率是极其低下的,显然是不现实的。所以,搜索引擎会倾向于每下载若干URL资源后就对已下载的URL进行权重计算(即不完全的权重计算),以此来确定这些URL资源所对应页面的权重值,从而对较高权重值的网页进行优先抓取。

由于权重计算是基于部分数据而得出的结果,可能会与真实权重有较大出入(即失真)。因此,这种高权重优先的抓取策略也有可能会对次要页面进行优先抓取。

暗网抓取暗网(又称作深网、不可见网、隐藏网)是指那些存储在网络数据库里、不能通过超链接访问而需要通过动态网页技术或者人工发起查询访问的资源集合,不属于那些可以被标准搜索引擎索引的信息。

本文仅限内部技术人员学习交流,不得作于其他商业用途.希望此文对广技人员有所帮助。原创文章出自:南昌网站建设公司-百恒网络http://www.jxbh.cn/如转载请注明出处!

400-680-9298,0791-88117053
扫一扫关注百恒网络微信公众号
扫一扫打开百恒网络小程序

欢迎您的光顾,我们将竭诚为您服务×

售前咨询 售前咨询
 
售前咨询 售前咨询
 
售前咨询 售前咨询
 
售前咨询 售前咨询
 
售前咨询 售前咨询
 
售后服务 售后服务
 
售后服务 售后服务
 
备案专线 备案专线
 
×