处理 SSI 文件时出错
“后Google”时代的搜索技术(中)  “后Google”时代的搜索技术(中)2006-8-19 19:38:39“后Google”时代的搜索技术(中)2006-8-19 19:38:39“后Google”时代的搜索技术(中)
【日经BP社报道】 上接本站报道“后Google”时代的搜索技术(上)
一般情况下,确定显示顺序时会使用搜索关键词出现的频率和链接数量等。基本上是将包含多个搜索关键词的页面确定为排序靠前的信息。不过,其重要等级还会因这个关键词是频繁地出现还是不怎么出现在其他文件中而有所变化。比如,搜索“杂志”和“日经BYTE”这两个关键词时,就会有很多文件包括“杂志”,而包含“日经BYTE”的文件则要少一些。此时就会赋于包含多个“日经BYTE”而不是“杂志”的文件更高的等级,调整显示顺序。
对于链接,被很多文件所链接的关键词就会排在结果的前列。依据是知名度越高、该页就越优秀。
仅仅利用这些信息,就能够为了显示在搜索结果的前面而专门做一些网页。方法是在文件中嵌入某些特定的关键词,或者制作虚拟页面然后相互粘贴链接等。如果像这样做了手脚的页面排到了搜索结果的前面,那么用户就感觉难以收集到所需信息,而逐渐放弃使用该引擎。
图3●PageRank的概念图。用页面中所粘贴的链接数去除原始链接页面的价值所得到的结果就是链接目的页的价值。比如,由于一个100点的页面粘贴了二个链接,因此每个链接目的页就各自得到50点。同样,如果9点的页粘贴了三个链接,那么每个链接目的页就是9的1/3即3点。这样一来,在具有价值的页面里被严格选定的链接目的页中所选择的页面就能够得到非常多的点数。此图为笔者根据Google公司创始人劳伦斯·佩奇(Lawrence Page)创立的PageRank(佩奇排序)公开资料制作。(点击放大)
Google利用独特的方法解决了这一问题。这就是被称为“PageRank”的方法。
即便是Google,粘贴有很多链接的页面重要性也会很高。但是,PageRank考虑的不仅仅只是数目,而且还赋于每个链接一个价值(即等级)。链接价值由下面的二个因素来决定:(1)来自何页;(2)链接是如何粘贴的(图3)。
比如,假设分别有一个价值为100点的页页和价值为9点的页页。其价值的不同将会被反映到这两个页面所链接的对象页面。这一点相当于(1)。另外,页面所粘贴的链接数量也会用于价值计算中。如果在100点的页面中有2个链接被其他页面粘贴,那么链接目的页所得到的值是用链接数除原始链接页的点数所得到的值即50点。如果一个页面粘贴了很多链接,其点数就会下降,而被选择为经过严格挑选出来的少量的链接目的页之一的页面,其点数就高。这一点则相当于(2)。实际上Google就是根据这种观点,来对对数值进行分析,并计算其价值的。由此,像雅虎这样具有较高知名度和可靠性的页面价值就会提高,而个人消遣性地制作的信息量较低的页面价值就会降低。
在PageRank中要想排在搜索结果的前面非常困难。因为即便是制造虚拟页面单纯地增加链接数,由于虚拟页面没有任何价值,因此其点数也上不去。而必须由既有权威性且知名度又高的页面粘贴链接。为此就必须充实页面内容。也就是说,总之越是排在前面的页面就越可能是具有相应信息价值的页面。
动态地调整“质”,追击Google
不过,信息的“质”会因场合的不同而不同。被认为是权威的页面会因搜索内容而变化。基于这种观点的搜索引擎目前也已亮相。可动态地调整信息“质”的引擎的亮相甚至有可能像Google过去那样发展成为威胁到现有引擎的程度。
“WiseNut”就是其中之一。其特点是先分析某个页面中所粘贴的链接周围的语言,然后将与搜索关键词之间的关联性用于排序。Google的PageRank中页面所具有的价值永远都是相同的,而采用这种方法的话,其重要性会因每个搜索关键词而变化(注3)。
使用链接信息进行分析的搜索引擎还有“Teoma(意思是专家)”。Teoma根据包括搜索关键词的文件集合来计算页面的重要等级。
图4●Teoma的搜索结果。与Google类似,显示画面非常简洁(点击放大)
另外,这两个搜索引擎试图通过提示哪种信息将较多地包含在搜索结果中,来减少到达所需信息的时间和工作量。WiseNut和Teoma分别将其命名为“WiseGuide(智能导航)”和“Refine”。
比如,在Teoma中利用“Search”进行搜索(图4)。就会知道在Refine中“Search Engines”和“Advanced Search”等信息(称为副标题)已经包括在搜索结果中。这里显示的信息就是Teoma事先准备好的。利用它既可以大体上把握搜索结果的趋势,还可以用于进一步搜索(注4)。
在副标题中准备什么内容,以及使包括何种语句的信息符合这个副标题等条件需要事先人工设置好。“并不是全部由人工设置。已经具有使其根据人工进行的初始设置而不断增强的功能(注5)”(收购了美国Teoma科技公司的美国Ask Jeeves公司日本法人--日本Ask Jeeves公司技术部技术主管樋口将嘉)。(记者:八木 玲子)
“后Google”时代的搜索技术(中)  “后Google”时代的搜索技术(中)2006-8-19 19:38:39“后Google”时代的搜索技术(中)2006-8-19 19:38:39“后Google”时代的搜索技术(中)
|