當前位置:律師網大全 - 專利申請 - 搜索引擎中網頁排名最有效的算法是什麽?

搜索引擎中網頁排名最有效的算法是什麽?

2.1基於詞頻統計的搜索引擎——詞位加權

利用關鍵詞在文檔中的出現頻率和位置進行排序是搜索引擎最早的主要思路,其技術發展也最為成熟。它是搜索引擎第壹階段的主要排序技術並被廣泛應用,至今仍是眾多搜索引擎的核心排序技術。基本原理是,關鍵詞在文檔中出現的頻率越高,其位置就越重要,與搜索詞的相關性就越好。

1)詞頻統計

文檔的詞頻是指查詢關鍵詞在文檔中出現的頻率。文檔中查詢關鍵詞出現的頻率越高,其相關性越大。但當關鍵詞是常用詞時,對相關性的判斷意義不大。TF/IDF很好的解決了這個問題。TF/IDF算法被認為是信息檢索領域最重要的發明。Tf ($ TERM頻率):單文本詞匯出現的頻率,用關鍵詞數除以網頁總字數,其商稱為“關鍵詞頻率”。IDF(逆文檔頻率):逆文本頻率指數,其原理是壹個關鍵詞已經出現在n個網頁中,所以n越大,這個關鍵詞的權重越小,反之亦然。當關鍵詞是常用詞時,權重很小,解決了詞頻統計的缺陷。

2)單詞位置加權

在搜索引擎中,詞位加權主要用於網頁。因此,對頁面布局信息的分析非常重要。通過對搜索關鍵詞在網頁中的不同位置和布局賦予不同的權重,可以根據權重確定搜索結果與搜索關鍵詞的相關程度。可以考慮的布局信息包括:是否是標題,是否是關鍵詞,是否是文字,字體大小,是否加粗等等。同時,錨文本的信息也很重要,壹般能準確描述所指向頁面的內容。

2.2基於鏈接分析和排名的第二代搜索引擎

鏈接分析和排名的思想源於引用指數機制,即壹篇論文被引用的次數越多或越權威,其論文就越有價值。鏈接分析和排名的思路也差不多。壹個網頁被其他網頁或者更權威的網頁引用的次數越多,它的價值就越大。被其他網頁引用的次數越多,越受歡迎,越權威,質量越高。鏈接分析排名算法大致可以分為以下幾類:基於隨機漫遊模型,如PageRank和Repution算法;基於概率模型,如SALSA和PHITS;基於樞紐和權威的相互強化模式,如HITS及其變種;基於貝葉斯模型,如貝葉斯算法及其簡化版本。在實際應用中,結合傳統的內容分析技術對算法進行了優化。本文主要介紹以下經典排序算法:

1)PageRank算法

PageRank算法是由斯坦福大學的博士生Sergey Brin和Lwraence Page提出的。PageRank算法是Google搜索引擎的核心排名算法,是Google成為全球最成功搜索引擎的重要因素之壹,也開啟了鏈接分析研究的熱潮。

PageRank算法的基本思想是用PageRank值來衡量壹個頁面的重要性,主要體現在兩個方面:頁面引用該頁面的數量和頁面引用該頁面的重要性。壹個頁面P(A)被另壹個頁面P(B)引用,可以看作是P(B)推薦P(A),P(B)將其重要性(pageRank值)平均分配給P(B)引用的所有頁面,所以引用P(A)的頁面越多,分配給P(A),Page的PageRank值就越多。此外,P(B)越重要,它所引用的頁面可以分配的PageRank值就越多,P(A)的PageRank值越高,它就越重要。

其計算公式為:

PR(A):頁面A的PageRank值;

d:阻尼系數,因為有些頁面沒有鏈接進來或者鏈接出去,所以無法計算出PageRank值,是為了避免這個問題(也就是LinkSink問題)而提出的。阻尼系數通常規定為0.85。

R(Pi):頁面Pi的PageRank值;

C(Pi):頁面外的鏈接數;

PageRank的初始計算值是壹樣的。為了不忽略重要頁面鏈接的頁面也很重要這個重要因素,需要叠代運算。根據張英海寫的計算結果,超過10次叠代後,鏈路評估值趨於穩定,因此系統的PR值在多次叠代後收斂。

PageRank是壹種靜態算法,與查詢無關,所以所有網頁的PageRank值都可以通過離線計算得到。這樣減少了用戶在檢索時所需的排序時間,查詢響應時間也大大降低。但是PageRank有兩個缺陷:第壹,PageRank算法嚴重歧視新增網頁,因為新增網頁的外發和內發鏈接通常很少,PageRank值很低。另外,PageRank算法只依賴於外部鏈接的數量和重要性,而忽略了頁面的主題相關性,使得壹些主題不相關的頁面(如廣告頁面)獲得了較大的PageRank值,影響了搜索結果的準確性。正因如此,各種話題相關算法應運而生,其中以下算法最為典型。

2)話題敏感的PageRank算法。

由於最初的PageRank算法沒有考慮主題相關因素,斯坦福大學計算機科學系的塔赫爾·哈維裏-瓦拉提出了壹種主題敏感的PageRank算法來解決“主題漂移”問題。這種算法考慮到了某些頁面在某些領域被認為是重要的,但並不意味著它們在其他領域也是重要的。

網頁A和網頁B之間的鏈接可以看作是網頁A對網頁B的評分,如果網頁A和網頁B屬於同壹主題,可以認為A對B的評分更可靠。因為A和B在視覺上可以看作是同齡人,同齡人往往比非同齡人更了解同齡人,所以同齡人的分數往往比非同齡人的分數更可靠。不幸的是,TSPR沒有使用主題的相關性來提高鏈接分數的準確性。

3)山頂算法

HillTop是谷歌的工程師巴拉特在2001申請的專利。HillTop是壹種查詢相關鏈接分析算法,克服了PageRank的查詢獨立性。HillTop算法認為相同主題的相關文檔鏈接對搜索者的價值會更大。只有那些用來引導人們瀏覽資源的專家頁面(導出源)才在Hilltop中考慮。當Hilltop收到查詢請求時,首先根據查詢主題計算出壹個相關性最強的專家頁面列表,然後根據指向目標頁面的非依賴專家頁面的數量和相關性對目標頁面進行排序。

HillTop算法確定網頁與搜索關鍵詞匹配度的基本排序過程,取代了過分依賴PageRank值來尋找那些權威頁面的方法,避免了很多想通過增加很多無效鏈接來提高網頁PageRank值的作弊方法。HillTop算法通過不同等級保證評價結果與關鍵詞的相關性,通過不同位置保證話題(行業)的相關性,通過區分短語數量防止關鍵詞堆積。

而專家頁面的搜索和確定在算法中起著關鍵作用,專家頁面的質量對算法的準確性起著決定性的作用,這忽略了大部分非專家頁面的影響。專家頁面在互聯網中的比例很低(1.79%),不能代表互聯網的全部頁面,所以HillTop有壹定的局限性。同時,與PageRank算法不同,HillTop算法的運算是在線運行的,對系統的響應時間造成了很大的壓力。

4)點擊量

hits(Hyperlink Induced Topic Search)算法由Kleinberg在1998中提出,是基於超鏈接分析的另壹種最著名的排序算法之壹。該算法根據超鏈接的方向將網頁分為兩類:權威頁面和樞紐頁面。權威頁面也稱權威頁面,是指最接近某個查詢關鍵詞及其組合的頁面,Hub頁面也稱目錄頁面。這個頁面的內容主要是大量的權威頁面的鏈接,它的主要作用就是把這些權威頁面聯合起來。對於權威頁面P,指向P的Hub頁面越多,質量越高,P的權威值越大;對於Hub頁面H,H指向的權威頁面越多,權威頁面質量越高,H的Hub值越大..對於整個網絡收藏來說,權威和樞紐是相互依存、相互促進、相互加強的。權威和樞紐之間的優化關系是HITS算法的基礎。

HITS的基本思想是算法根據網頁的入度(指向該網頁的超鏈接)和出度(從該網頁指向其他網頁)來衡量網頁的重要性。定義範圍後,根據網頁的出界和入界建立矩陣,通過矩陣的叠代運算和收斂閾值的定義,不斷更新Authority和Hub兩個向量的值,直至收斂。

實驗數據表明,HITS的排序準確率高於PageRank,HITS算法的設計符合網絡用戶評價網絡資源質量的通用標準,可以為用戶更好地使用網絡信息檢索工具訪問互聯網資源帶來便利。

但它存在以下缺陷:首先,HITS算法只計算主特征向量,不能很好地處理話題漂移;其次,搜索狹窄話題時可能會出現話題泛化的問題;第三,HITS算法可以說是壹種實驗性的嘗試。在網絡信息檢索系統中進行面向內容的檢索操作後,必須根據內容檢索的結果頁面與其直接相連的頁面之間的鏈接關系來計算。雖然有人嘗試過改進算法,設置連接性服務器,實現壹定程度的在線實時計算,但計算成本還是讓人無法接受。

2.3基於智能排序的第三代搜索引擎

排名算法在搜索引擎中起著特別重要的作用。目前,許多搜索引擎正在進壹步研究新的排名方法,以提高用戶的滿意度。但是目前第二代搜索引擎有兩個缺點。在此背景下,基於智能排序的第三代搜索引擎應運而生。

1)相關問題

相關度是指搜索詞與頁面的相關程度。由於語言的復雜性,僅通過鏈接分析和網頁的表面特征來判斷搜索詞與頁面的相關性是片面的。比如搜索“稻瘟病”,有壹個介紹水稻病蟲害信息的網頁,但正文中沒有“稻瘟病”這個詞,搜索引擎根本檢索不到。正是基於以上原因,大量的搜索引擎作弊現象無法解決。解決相關性的方法應該是增加語義理解,分析搜索關鍵詞與網頁的相關程度。相關性分析越準確,用戶的搜索效果就會越好。同時可以淘汰相關性低的網頁,有效防止搜索引擎作弊。搜索關鍵詞和網頁的關聯在網上運行,會給系統造成很大壓力。分布式體系結構可以提高系統的規模和性能。

2)搜索結果的簡化

在搜索引擎上,任何人搜索同壹個詞都會得到相同的結果。這不符合用戶的需求。不同的用戶對檢索結果有不同的要求。比如,普通農民搜索“稻瘟病”只是為了獲得有關稻瘟病及其防治方法的信息,但農業專家或科技工作者可能想獲得與稻瘟病相關的論文。

解決搜索結果單壹的途徑是提供個性化服務,實現智能搜索。通過Web數據挖掘,建立用戶模型(如用戶背景、興趣、行為、風格),提供個性化服務。

  • 上一篇:雙屏手機專利
  • 下一篇:泰安自由自在休閑客棧距離泰山職業技術學院遠嗎
  • copyright 2024律師網大全