HITS演算法


HITS演算法是Web結構挖掘中最具有權威性和使用最廣泛的演算法。

其基本思想是利用頁面之間的引用鏈來挖掘隱含在其中的有用資訊(如權威性),具有計算簡單且效率高的特點。HITS演算法通過兩個評價權值——內容權威度(Authority)和鏈結權威度(Hub)來對網頁品質進行評估。

內容權威度與網頁自身直接提供內容資訊的品質相關,被越多網頁所引用的網頁,其內容權威度越高;鏈結權威度與網頁提供的超鏈結頁面的品質相關,引用越多高品質頁面的網頁,其鏈結權威度越高。

HITS演算法認為對每一個網頁應該將其內容權威度和鏈結權威度分開來考慮,在對網頁內容權威度做出評價的基礎上再對頁面的鏈結權威度進行評價,然後給出該頁面的綜合評價。然而HITS演算法也有其明顯的不足。

首先,它完全將網頁的內容或文本排除在外,僅考慮網頁之間的鏈結結構來分析頁面的權威性,這與現實網路中的權威頁面相比,其不科學性顯而易見。因為權威頁面必須針對某一主題或關鍵字而言。某一頁面對一確定主題的具有較大權威性的頁面並不意味在其他與其無關的主題方面同樣具有權威性。

其次一個頁面對另一頁面的引用有多種情況,其中包含了一頁面對另一頁面的認可,但除此之外也有其他目的鏈結,如為了導航或為了付費廣告。而HITS演算法在實現過程中均沒有考慮以上情況.導致了結果與目標的差距。就HITS演算法的思想與實現過程做了細緻的研究與概括。

針對前面第一種不足,就有相關的學者提出了一種利用超鏈文字及其周圍文字與關鍵字相匹配而計算超鏈權值的方法,並引入係數對周圍文字和超鏈文字進行權值的相對控制,很好地將頁面文本資訊引入到HITS演算法,提高了演算法的可靠性,並在現實中取得了很好的效果。

對HITS演算法的第二個不足,即非正常目的的引用.在HITS演算法看來,也誤認為是正常引用,導致實際結果與目標的出入。後來,經過不斷的改進。HITS演算法又引入了時間參數,即利用對一鏈結引用的時問長短來評價是否為正常引用。因為非正常鏈結其引用時問肯定不會很長(如交換鏈結、廣告鏈結),相反,如果一頁面對另一頁面的鏈結時間較長,則必然反映此頁面就是用戶的尋找頁面。即目標頁面或至少是正常引用。

如果設定時間閥值,則可以將非正常引用的鏈結在HITS演算法的實現過程中篩選出來。如設定訪問時間少於1分鐘者為非正常引用。另外可構造時間訪問函數,控制權威頁面的相對大小。如隨訪問時間的增大而其權威性也逐漸非線性增大.這樣可為HITS演算法的權威頁面提供更合理、更科學的解釋。鏈結穩定性,在外部鏈結的建設中,佔據非常重要的地位。鏈結越穩定,對排名的幫助就越大。