感谢您来到本站,本站免费提供网站分析、seo优化、网站改版建议等服务项目,如有需求,请联系点击联系我博主王小贱说明需求,联系电话:13270555362

优化的原理说明(六):哪些网页无法建入索引库与搜索引擎索引系统概述

seo基础知识 王小贱 336℃ 0评论

哪些网页无法建入索引库

上述优质网页进了索引库,那其实互联网上大部分网站根本没有被百度收录。并非是百度没有发现他们,而是在建库前的筛选环节被过滤掉了。那怎样的网页在最初环节就被过滤掉了呢:

  •  1, 重复内容的网页:互联网上已有的内容,百度必然没有必要再收录。
  • 2, 主体内容空短的网页
    1)有些内容使用了百度spider无法解析的技术,如JS、AJAX等,虽然用户访问能看到丰富的内容,依然会被搜索引擎抛弃
    2)加载速度过慢的网页,也有可能被当作空短页面处理,注意广告加载时间算在网页整体加载时间内。
    3)很多主体不突出的网页即使被抓取回来也会在这个环节被抛弃。
    3, 部分作弊网页

搜索引擎索引系统概述

众所周知,搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。上一章我们主要介绍了部分抓取存储环节中的内容,此章简要介绍一下索引系统。

在以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,也许一定的时间内可以完成查找,但是用户等不起,从用户体验角度我们必须在毫秒级别给予用户满意的结果,否则用户只能流失。怎样才能达到这种要求呢?

如果能知道用户查找的关键词(query切词后)都出现在哪些页面中,那么用户检索的处理过程即可以想象为包含了query中切词后不同部分的页面集合求交的过程,而检索即变成了页面名称之间的比较、求交。这样,在毫秒内以亿为单位的检索成为了可能。这就是通常所说的倒排索引及求交检索的过程。如下为建立倒排索引的基本过程:

建立倒排索引的基本过程

建立倒排索引的基本过程

  •  1,页面分析的过程实际上是将原始页面的不同部分进行识别并标记,例如:title、keywords、content、link、anchor、评论、其他非重要区域等等;
  • 2,分词的过程实际上包括了切词分词同义词转换同义词替换等等,以对某页面title分词为例,得到的将是这样的数据:term文本、termid、词类、词性等等;
  • 3,之前的准备工作完成后,接下来即是建立倒排索引,形成{termàdoc},下图即是索引系统中的倒排索引过程。
索引系统中的倒排索引过程

索引系统中的倒排索引过程

倒排索引是搜索引擎实现毫秒级检索非常重要的一个环节,下面我们要重要介绍一下索引系统建立倒排索引的重要过程——入库写库。

本文由 原创编译,转载请注明出处:http://www.wangxuejian.cn/?p=461

本站内容由王小贱编写,转载本站文章请注明出处:http://www.wangxuejian.com
喜欢 (1)
发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址