当前位置:主页 > 新闻中心 > 常见问题 >
搜索引擎的工作原理是什么?

作者:yoscc.cn   发表时间:2019-03-20 13:54:21

所谓搜索引擎的工作原理,就是指它工作的一个流程,比如刚开始做什么,接着做什么,最后做什么。在这个流程里,最先做的就是爬行与抓取。下面就是详细介绍一下关于这方面的知识。

1、蜘蛛:BaiduSpider SosoSpider Googlebot

什么叫蜘蛛呢?我们都知道,互联网上的信息非常庞杂,这些信息基本是以站点的方式比如虚拟主机、空间、服务器等等来存放的。把每个服务器当做一个点,点与点之间通过网线连接,错综复杂,有点蜘蛛织的网的感觉,搜索引擎的程序在这个网之间来回爬行,所以形象的把搜索引擎的程序称之为蜘蛛。

2、跟踪链接:深度优先,广度优先

蜘蛛在网之间是怎么爬行的呢?有两个原则,一个是深度优先原则,一个是广度优先原则。深度优先怎么理解呢?就比如说爬完A,A里面有个B,就继续跟着B爬行,B里面有个C,就再跟着C爬行,以此类推。广度优先呢?指的是A里面有B、C、D,先把B、C、D爬完,再去爬B里面的D、E、F,然后再爬C里面的,再爬D里面的。

3、吸引蜘蛛:网站或页面权重,页面更新率,导入链接数,与首页距离

因为互联网的信息太庞杂了,只靠几个搜索引擎的爬行程序是远远不够的,所以就需要主动的对搜索引擎的爬行程序示好,让它来爬我们的网站。可以通过四个方面来吸引蜘蛛,网站或页面的权重越大,越可以吸引蜘蛛;页面更新率越高,越能吸引蜘蛛;导入链接数越多,越能吸引蜘蛛;与首页的深度距离越短,越能吸引蜘蛛。

4、地址库:为了避免重复爬行

比如今天要爬一万个链接,就可以把这一万个链接放进地址库里,爬完一个删除一个,可以很好的避免重复爬行。

5、文件存储

把网页爬完以后,放在哪里呢?可以把这些网页放在一个文件里,把它存储起来。

6、爬行简单的内容处理:蜘蛛来了不一定收录

蜘蛛虽然不是人,它没有思想,但它毕竟是人设计出来的,所以它不会机械的乱爬,也要看情况。比如虽然你的网站更新的很频繁,但是内容都是复制粘贴的,重复率比较高,质量比较低,或者说虽然你的导入链接数比较多,但都是一些垃圾链接,这种情况的话蜘蛛来了就会走了,不会收录。所以蜘蛛不会乱爬,它也会做个简单的判断。

返回列表

上一篇:常用的搜索引擎与目录有哪些

下一篇:搜索引擎处理网站排名的步骤有哪些?

优圣软件完美的策划方案能够让您的网站在同行间异军突起,让你的产品更快速、最大价值化的销售出去

让你的网站上线一个月就排在百度首页

LET YOUR WEB SITE ON-LIFE FOR A MONTH ON THE BAIDU HOME PAGE

Copyright © 2023  贺州优圣互联网络科技有限公司  All Rights Reserved  桂ICP备2023004489号-5  地址:贺州市八步区八达西路443号