您的当前位置：首页正文

泰剧站长可能忽略的的,关于搜索引擎的工作原理

来源：一二三四网

泰剧站长可能忽略的的，关于搜索引擎的工作原理

[url=http://www.xiaoyatv.com/]泰剧[/url]

搜索引擎工作原理：1：爬行和抓取（搜索引擎发出用于访问网站的搜索引擎蜘蛛，蜘蛛首先会访问网站根目录下的robots.Txt文件，如果有禁止蜘蛛爬行的文件，那么蜘蛛讲遵守协议）

2，跟踪链接（蜘蛛会跟踪页面上的链接，从一个页面爬向另一个页面{深度优先：蜘蛛沿着发现的链接一直向前爬行，直到前方没有链接，再返回第一个页面然后继续爬行和广度优先：在一个页面发现多条链接时，先爬完这一层，然后继续爬向其他层}，理论上蜘蛛可以爬完所有的链接页面，但由于蜘蛛的宽带资源和时间有限，所以只会爬行并收录其中的一小部分）

3，吸引蜘蛛（由于蜘蛛不可能爬向所有的链接，所以蜘蛛所要做的就是抓取尽量多的重要的页面，那么就需要做措施来吸引蜘蛛来爬行我们的网站，比如：1，网站和页面权重，这样的网站会被爬行的很深；2，页面更新频率；3，导入链接，没有链接，蜘蛛是找不到这个页面的；4，与首页的距离，一般来说，离首页越近，会被认为权重越高）

4，地址库（为了避免重复爬行和抓取网址，搜索引擎会建立一个地址库，记录已经被发现但是还没有爬行和抓取的页面，以及已经爬行和抓取地址。蜘蛛按重要性从待访地址库中提取url访问并抓取页面，然后把这个url在待访地址库中删除，放进已访问地址库。搜索引擎更喜欢自己沿着链接发现新页面）

5，爬行时的复制内容检测（蜘蛛爬行的时候，遇到权重很低的网站上大量转载和抄袭内容，很可能不再爬行）

6，预处理（1，提取文字：搜索引擎去掉html格式标签、js等，提取出可以用于排名的网页文字内容，这些内容除了网页可见内容外，还会提取meta标签中的文字、图片替代文字、链接锚文字等；2，中文分词；分词是中文搜索引擎所特有的，分为词典匹配和基于统计；3，去停止词：去掉那些出现频率很高但是对排名没有用处的“的”“得”“地”“啊”“哈”之类的；4，消除噪声：就是消除网站那些版权、导航和广告啥的；5，去重：由于同一篇文章会出现在不同网站的不同页面上，蜘蛛不喜欢这些重复内容，所以蜘蛛需要对这些页面进行选取特征关键词进行排名）

6，正向索引：（经过前面的一系列处理后，蜘蛛将页面转换为关键词的集合，同时记录每一个关键词在页面出现的频率、出现次数、格式{如出现在meta标签中、黑体或者h标签、锚文字等}、位置等，这种模式是各个页面文件中的关键词是分开的，比如文件1中含有关键词1、2、4、6、7文件2中含有关键词2、4、7、9；）

7，倒排索引（倒排正好相反，比如：关键词1在页面文件1、3、5、7、8中，而关键词2在页面文件2、6、9中，正向和倒排是相互结合排名的） 8，链接计算

9，特殊文件处理（pdf文件有更大的权重）www.xiaoyatv.com

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文