作者:yoscc.cn 发表时间:2019-03-20 14:02:53
预处理是搜索引擎工作原理中的第二步,通常我们也把它称为索引。那什么叫做预处理呢?就是预告、预估,是一种非正式的处理,或者是进行了部分处理,还没处理完。在进行预处理时,一般有五个小步骤。
怎么理解提取文字呢?比如打开一个搜索结果页面,用户看到的是文字、图片,搜索引擎看到的页面却不是这样的。它们看到是源代码,有字符、数字、中文、标签、代码等,要把这些源代码提取成我们可以看懂的文字。
比如说一句话,在进行分词时,要把的这种衔接词去掉,对剩余的文字进行分词,也就是我们常说的断句。
什么是消除噪声呢?在搜索结果里,会有正常的结果和一些侧边栏,这个时候要分清什么是主要的,把一些无关紧要的、不重要的、跟主题无关的内容忽略掉、屏蔽掉,减少主题的混杂度。
搜索引擎的蜘蛛会爬大量的页面,在这些页面里,肯定会有重复的内容,此时就需要经过去重这个环节,把重复的内容页面去掉。
上面的四个步骤都经过处理以后,就要进行索引了,它相当于杀鸡过程中的煎炸炒的过程,索引入库之后,大部分的事情就做完了,只等着用户来搜索了。
优圣软件完美的策划方案能够让您的网站在同行间异军突起,让你的产品更快速、最大价值化的销售出去
让你的网站上线一个月就排在百度首页LET YOUR WEB SITE ON-LIFE FOR A MONTH ON THE BAIDU HOME PAGE
Copyright © 2023 贺州优圣互联网络科技有限公司 All Rights Reserved 桂ICP备2023004489号-5 地址:贺州市八步区八达西路443号