近期在考虑有关搜索引擎排序的一些内容,有一些不成熟的想法,拿出来推荐讨论。
搜索引擎(这里以谷粉搜搜的设计为参考)在页面爬行,正文内容提取,分词打造倒排索引将来,将对检索关键词进行分词,并提取出词性为名词,字符串等比较要紧的词到分词索引库取交集,即会得到一个包括拥有基本有关度的页面文件集合,之后将会进入页面排序部分。
在页面排序部分,有两个部分是特别要紧的,一个是页面在搜索引擎里面的网站权重分数,还有一个是要紧词性的分词出目前页面的地方(标题,有效正文的最开始地区等),我觉得这两个部分的分数基本上决定了大体的排名地方,其中页面的网站权重分数所占的比率会更多(偏向于觉得是大,并且比其他原因都大不少),检索词的其他词性如形容词,介词等分词的完整匹配出现会获得一小部分的加分。
页面的网站权重分数在不一样的搜索引擎倾向会有明显的不同,总体来讲,都和链接关系密切有关,链接关系分为有关性有效链接(导出链接的网站内容,锚文本,目的网站高度有关)和高信赖度链接(来自大网站,gov,edu等高PR值网站),这两种链接具体可以参考HillTOP算法和Trustrank算法,其中HillTOP算法想法很有趣,在该算法的一个专利版本里面提到了对刚开始的搜索结果页面集合第三进行链接关系有关性计算,以进一步精确在该检索词范围网站权重高的页面。
页面网站权重分数还会涉及到域名的网站建设时间原因(这里我觉得不止是由于链接存在的时间原因),在百度的算法里,主域名的网站权重对子域名和页面的网站权重影响也会比Google大不少。
在这类步骤完成后,会进入最后一个反作弊模块,处置掉那些作弊积分超越一定量的页面与在沙盒里的页面,然后得到最后的排序结果。
在考虑这个搜索引擎排序算法的时候,基本上就能确定大多数的页面是没机会在搜索引擎里面获得展出的,这是由于网站权重在搜索引擎的算法里占有高度优先级是什么原因。
在可以获得的数据里,我觉得过去的GooglePR值是最接近能反映页面网站权重的数据,虽然已经停止更新一年了。爱站,CHINAZ等第三方网站提供的百度网站权重是基于从百度引导过去的流量为标准进行计算的结果,虽然能一定量反应域名的网站权重,不过这种以结果论的方法来讲明问题不太准确,以提升页面网站权重的目的来讲,这类第三方数据不可以作为标准。
因此,网站建设不应该是追求很多采集内容(就像很多人拼命来采集谷粉搜搜的内容一样),或者勤于每天更新简单的原创,采集的内容和简单的原创假如无人推荐,不可以吸引优质的链接,页面的网站权重就不会上升,就得不到排名的机会,同样也吸引不了用户。
因此,网站建设应该更新有价值的原创,可以吸引来自很多网站的正文有关链接,或者做出有价值的工具网站让更多人用推荐,获得很多高信赖度的链接,只有如此,在搜索引擎排序非常重要的网站权重分数排序阶段,获得更多机会。
标题名字网站建设初期做优化先知道搜索引擎算法