[url=http://www.xiaoyatv.com/]泰剧[/url]
搜索引擎工作原理:1:爬行和抓取(搜索引擎发出用于访问网站的搜索引擎蜘蛛,蜘蛛首先会访问网站根目录下的robots.Txt文件,如果有禁止蜘蛛爬行的文件,那么蜘蛛讲遵守协议)
2,跟踪链接(蜘蛛会跟踪页面上的链接,从一个页面爬向另一个页面{深度优先:蜘蛛沿着发现的链接一直向前爬行,直到前方没有链接,再返回第一个页面然后继续爬行和广度优先:在一个页面发现多条链接时,先爬完这一层,然后继续爬向其他层},理论上蜘蛛可以爬完所有的链接页面,但由于蜘蛛的宽带资源和时间有限,所以只会爬行并收录其中的一小部分)
3,吸引蜘蛛(由于蜘蛛不可能爬向所有的链接,所以蜘蛛所要做的就是抓取尽量多的重要的页面,那么就需要做措施来吸引蜘蛛来爬行我们的网站,比如:1,网站和页面权重,这样的网站会被爬行的很深;2,页面更新频率;3,导入链接,没有链接,蜘蛛是找不到这个页面的;4,与首页的距离,一般来说,离首页越近,会被认为权重越高)
4,地址库(为了避免重复爬行和抓取网址,搜索引擎会建立一个地址库,记录已经被发现但是还没有爬行和抓取的页面,以及已经爬行和抓取地址。蜘蛛按重要性从待访地址库中提取url访问并抓取页面,然后把这个url在待访地址库中删除,放进已访问地址库。搜索引擎更喜欢自己沿着链接发现新页面)
5,爬行时的复制内容检测(蜘蛛爬行的时候,遇到权重很低的网站上大量转载和抄袭内容,很可能不再爬行)
6,预处理(1,提取文字:搜索引擎去掉html格式标签、js等,提取出可以用于排名的网页文字内容,这些内容除了网页可见内容外,还会提取meta标签中的文字、图片替代文字、链接锚文字等;2,中文分词;分词是中文搜索引擎所特有的,分为词典匹配和基于统计;3,去停止词:去掉那些出现频率很高但是对排名没有用处的“的”“得”“地”“啊”“哈”之类的;4,消除噪声:就是消除网站那些版权、导航和广告啥的;5,去重:由于同一篇文章会出现在不同网站的不同页面上,蜘蛛不喜欢这些重复内容,所以蜘蛛需要对这些页面进行选取特征关键词进行排名)
6,正向索引:(经过前面的一系列处理后,蜘蛛将页面转换为关键词的集合,同时记录每一个关键词在页面出现的频率、出现次数、格式{如出现在meta标签中、黑体或者h标签、锚文字等}、位置等,这种模式是各个页面文件中的关键词是分开的,比如文件1中含有关键词1、2、4、6、7文件2中含有关键词2、4、7、9; )
7,倒排索引(倒排正好相反,比如:关键词1在页面文件1、3、5、7、8中,而关键词2在页面文件2、6、9中,正向和倒排是相互结合排名的) 8,链接计算
9,特殊文件处理(pdf文件有更大的权重)www.xiaoyatv.com
因篇幅问题不能全部显示,请点此查看更多更全内容