当前位置:主页 > 新闻中心 > 常见问题 >
搜索引擎工作原理中什么叫做预处理?

作者:yoscc.cn   发表时间:2019-03-20 14:02:53

预处理是搜索引擎工作原理中的第二步,通常我们也把它称为索引。那什么叫做预处理呢?就是预告、预估,是一种非正式的处理,或者是进行了部分处理,还没处理完。在进行预处理时,一般有五个小步骤。

1、提取文字

怎么理解提取文字呢?比如打开一个搜索结果页面,用户看到的是文字、图片,搜索引擎看到的页面却不是这样的。它们看到是源代码,有字符、数字、中文、标签、代码等,要把这些源代码提取成我们可以看懂的文字。

2、中文分词

比如说一句话,在进行分词时,要把的这种衔接词去掉,对剩余的文字进行分词,也就是我们常说的断句。

3、消除噪声

什么是消除噪声呢?在搜索结果里,会有正常的结果和一些侧边栏,这个时候要分清什么是主要的,把一些无关紧要的、不重要的、跟主题无关的内容忽略掉、屏蔽掉,减少主题的混杂度。

4、去重

搜索引擎的蜘蛛会爬大量的页面,在这些页面里,肯定会有重复的内容,此时就需要经过去重这个环节,把重复的内容页面去掉。

5、索引

上面的四个步骤都经过处理以后,就要进行索引了,它相当于杀鸡过程中的煎炸炒的过程,索引入库之后,大部分的事情就做完了,只等着用户来搜索了。

返回列表

上一篇:搜索引擎处理网站排名的步骤有哪些?

下一篇:搜索结果页面用户点击查看的行为分析

优圣软件完美的策划方案能够让您的网站在同行间异军突起,让你的产品更快速、最大价值化的销售出去

让你的网站上线一个月就排在百度首页

LET YOUR WEB SITE ON-LIFE FOR A MONTH ON THE BAIDU HOME PAGE

Copyright © 2023  贺州优圣互联网络科技有限公司  All Rights Reserved  桂ICP备2023004489号-5  地址:贺州市八步区八达西路443号