友策软件:李彦宏的超链分析技术全解读
2014-07-17
百度创始人李彦宏在回国创建百度之前就是美国顶级的搜索引擎工程师之一。据说李彦宏在寻找风险投资时,投资人询问其他三个搜索引擎业界的技术高人一个问题:要了解搜索引擎技术应该问谁。这三个被问到的高人中有两个回答:搜索引擎的事就问李彦宏。由此投资人断定李彦宏是最了解搜索引擎的人之一。

    这其实就是现实生活中类似于链接关系的应用。要判断哪个页面最具权威性,不能光看页面自己怎么说,还要看其他页面怎么评价。

    李彦宏1997年就提交了一份名为“超链文件检索系统和方法”的专利申请,这比GOOGLE创始人发明PR要早得多,不得不说这是非常具有前瞻性的研究工作。在这份专利中,李彦宏提出了与传统信息检索系统不同的基于链接的排名方法。

    根据这些链接数据,尤其是锚文字,计算出基于链接的文件相关性。在用户搜索时,将得到的基于链接的相关性与基于关键词匹配的传统相关性综合使用,得到更准确的排名。

    这个系统出了索引页面之外,还建立一个链接词库,记录链接锚文字的一些相关信息,如锚文字中包含哪些关键词,发出链接的页面索引,包含特定锚文字的链接总数,包含特定关键词的链接都指向哪些页面。词库不仅包含关键词原型,也包含同一个词干的其他衍生关键词。

    在今天看来,这种基于链接的相关性计算是搜索引擎的常态,每个SEO人员都知道。但是在十三四年前,这无疑是非常创新的概念。当然现在的搜索引擎算法对链接的考虑,已经不仅仅是锚文字,实际上要负责的多。

    超链分析(ESP)技术的本质是一种“投票”机制,一个链接可以看作一个网页对另一个网页的投票,票数决定排序。除了基本的投票机制,该技术还具有两方面特征:将链接文字作为重要信息加以利用,使搜索引擎更准确地理解目标网页的内容,从而有效地提高了搜索结果的相关性;根据投票者自身的权威性、推荐方式等属性调整投票权重,从而有效地提高了搜索结果的权威性。