搜索引擎分類
搜索引擎按其工作方式主要可分為三種,分別是全文搜索引擎(Full Text Search Engine)、目錄索引類搜索引擎(Search Index/Directory)和元搜索引擎(Meta Search Engine)。
全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,國外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,國內著名的有百度(Baidu)。它們都是通過從互聯網上提取的各個網站的信息(以網頁文字為主)而建立的數據庫中,檢索與用戶查詢條件匹配的相關記錄,然後按壹定的排列順序將結果返回給用戶,因此他們是真正的搜索引擎。
從搜索結果來源的角度,全文搜索引擎又可細分為兩種,壹種是擁有自己的檢索程序(Indexer),俗稱“蜘蛛”(Spider)程序或“機器人”(Robot)程序,並自建網頁數據庫,搜索結果直接從自身的數據庫中調用,如上面提到的7家引擎;另壹種則是租用其他引擎的數據庫,並按自定的格式排列搜索結果,如Lycos引擎。
目錄索引
目錄索引雖然有搜索功能,但在嚴格意義上算不上是真正的搜索引擎,僅僅是按目錄分類的網站鏈接列表而已。用戶完全可以不用進行關鍵詞(Keywords)查詢,僅靠分類目錄也可找到需要的信息。目錄索引中最具代表性的莫過於大名鼎鼎的Yahoo雅虎。其他著名的還有Open Directory Project(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也都屬於這壹類。
元搜索引擎(META Search Engine)
元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等(元搜索引擎列表),中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。
除上述三大類引擎外,還有以下幾種非主流形式:
集合式搜索引擎:如HotBot在2002年底推出的引擎。該引擎類似META搜索引擎,但區別在於不是同時調用多個引擎進行搜索,而是由用戶從提供的4個引擎當中選擇,因此叫它“集合式”搜索引擎更確切些。
門戶搜索引擎:如AOL Search、MSN Search等雖然提供搜索服務,但自身即沒有分類目錄也沒有網頁數據庫,其搜索結果完全來自其他引擎。
免費鏈接列表(Free For All Links,簡稱FFA):這類網站壹般只簡單地滾動排列鏈接條目,少部分有簡單的分類目錄,不過規模比起Yahoo等目錄索引來要小得多。
由於上述網站都為用戶提供搜索查詢服務,為方便起見,我們通常將其統稱為搜索引擎。
搜索引擎基本工作原理
了解搜索引擎的工作原理對我們日常搜索應用和網站提交推廣都會有很大幫助。
全文搜索引擎
在搜索引擎分類部分我們提到過全文搜索引擎從網站提取信息建立網頁數據庫的概念。搜索引擎的自動信息搜集功能分兩種。壹種是定期搜索,即每隔壹段時間(比如Google壹般是28天),搜索引擎主動派出“蜘蛛”程序,對壹定IP地址範圍內的互聯網站進行檢索,壹旦發現新的網站,它會自動提取網站的信息和網址加入自己的數據庫。
另壹種是提交網站搜索,即網站擁有者主動向搜索引擎提交網址,它在壹定時間內(2天到數月不等)定向向妳的網站派出“蜘蛛”程序,掃描妳的網站並將有關信息存入數據庫,以備用戶查詢。由於近年來搜索引擎索引規則發生了很大變化,主動提交網址並不保證妳的網站能進入搜索引擎數據庫,因此目前最好的辦法是多獲得壹些外部鏈接,讓搜索引擎有更多機會找到妳並自動將妳的網站收錄。
當用戶以關鍵詞查找信息時,搜索引擎會在數據庫中進行搜尋,如果找到與用戶要求內容相符的網站,便采用特殊的算法——通常根據網頁中關鍵詞的匹配程度,出現的位置/頻次,鏈接質量等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序將這些網頁鏈接返回給用戶。
目錄索引
與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬於自動網站檢索,而目錄索引則完全依賴手工操作。用戶提交網站後,目錄編輯人員會親自瀏覽妳的網站,然後根據壹套自定的評判標準甚至編輯人員的主觀印象,決定是否接納妳的網站。
其次,搜索引擎收錄網站時,只要網站本身沒有違反有關的規則,壹般都能登錄成功。而目錄索引對網站的要求則高得多,有時即使登錄多次也不壹定成功。尤其象Yahoo!這樣的超級索引,登錄更是困難。(由於登錄Yahoo!的難度最大,而它又是商家網絡營銷必爭之地,所以我們會在後面用專門的篇幅介紹登錄Yahoo雅虎的技巧)
此外,在登錄搜索引擎時,我們壹般不用考慮網站的分類問題,而登錄目錄索引時則必須將網站放在壹個最合適的目錄(Directory)。
最後,搜索引擎中各網站的有關信息都是從用戶網頁中自動提取的,所以用戶的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站信息,而且還有各種各樣的限制。更有甚者,如果工作人員認為妳提交網站的目錄、網站信息不合適,他可以隨時對其進行調整,當然事先是不會和妳商量的。
目錄索引,顧名思義就是將網站分門別類地存放在相應的目錄中,因此用戶在查詢信息時,可選擇關鍵詞搜索,也可按分類目錄逐層查找。如以關鍵詞搜索,返回的結果跟搜索引擎壹樣,也是根據信息關聯程度排列網站,只不過其中人為因素要多壹些。如果按分層目錄查找,某壹目錄中網站的排名則是由標題字母的先後順序決定(也有例外)。
目前,搜索引擎與目錄索引有相互融合滲透的趨勢。原來壹些純粹的全文搜索引擎現在也提供目錄搜索,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜索引擎合作擴大搜索範圍。在默認搜索模式下,壹些目錄類搜索引擎首先返回的是自己目錄中匹配的網站,如國內搜狐、新浪、網易等;而另外壹些則默認的是網頁搜索,如Yahoo。
搜索引擎的第三定律
搜索引擎走到今天,已經是壹個結束過去,開辟未來的時候了。為了說清楚我所講的第三定律,我們先來回顧壹下第壹和第二定律。
第壹定律 相關性定律
聽起來象是壹篇學術論文,的確,就連第壹,第二定律的提法以前也沒有過,但是第壹,第二定律的內容確早已在業界和學術界得到了公認。其實這第壹定律是早在互聯網出現之前就被學術界廣泛研究過的,那就是所謂的相關性定律。這個領域那時叫情報檢索,或信息檢索,也有叫全文檢索的。
那時的相關性都是基於詞頻統計的,也就是說,當用戶輸入檢索詞時,搜索引擎去找那些檢索詞在文章(網頁)中出現頻率較高的,位置較重要的,再加上壹些對檢索詞本身常用程度的加權,最後排出壹個結果來(檢索結果頁面) 。早期的搜索引擎結果排序都是基於本文的第壹定律的,如Infoseek,Excite,Lycos等,它們基本上是沿用了網絡時代之前學術界的研究成果,工業界的主要精力放在處理大訪問量和大數據量上,對相關性排序沒有突破。
詞頻統計其實根本沒有利用任何跟網絡有關的特性,是前網絡時代的技術。然而,網絡時代的主要文獻是以網頁的形式存在的,而幾乎每個人都可以隨心所欲地在網上發表各種內容,詞頻相同的兩個網頁,質量相差可以很遠,可是按照搜索引擎的第壹定律,對這兩個網頁的排序應該是壹樣的。為了能夠派在某些檢索結果的前幾位,許多網頁內容的制作者絞盡腦汁,在其頁面上堆砌關鍵詞,搜索引擎對此防不勝防,苦不堪言。這種情況到了 1996年開始有了改變。
第二定律 人氣質量定律
1996年4月,我到賭城拉斯維加斯開壹個有關信息檢索方面的學術會議,會議的內容就象拉斯維加斯的天氣壹樣,照例比較枯燥乏味。但遠離公司的我,卻難得有壹個靜下心來認真思考問題的機會。就在聽壹個毫不相幹的論文演講的時候,我突然把科學引文索引的機制跟Web上的超級鏈接聯系起來了 - 感謝北大,她在我上大三的時候就教授了我科學引文索引的機制,美國恐怕沒有壹所大學會在妳本科的時候教這玩藝兒。
科學引文索引的機制,說白了就是誰的論文被引用次數多,誰就被認為是權威,論文就是好論文。這個思路移植到網上就是誰的網頁被鏈接次數多,那個網頁就被認為是質量高,人氣旺。在加上相應的鏈接文字分析,就可以用在搜索結果的排序上了。這就引出了搜索引擎的第二定律:人氣質量定律。根據這壹定律,搜索結果的相關性排序,並不完全依賴於詞頻統計,而是更多地依賴於超鏈分析。
我意識到這是壹個突破性的東西,回去以後就很快總結了思路,於96年6月申請了這壹方面的美國專利。1999年 7月6號,美國專利和商標局批準了專利號為5,920,859的,以我為唯壹發明人的專利。大約在96年底,斯坦福大學計算機系的兩位研究生也想到了同樣的解決方法,他們後來創立了壹個叫Google的搜索引擎,Google的網站上至今仍然說他們的這項技術是Patent-pending (專利申請中) ,不知道美國專利局是不是還會再批這樣的專利。Anyway, 超鏈分析的方法98年以後逐漸被各大搜索引擎所接受,由於鏈接是網絡內容的壹個根本特性,這時候的搜索引擎才開始真正利用網絡時代的檢索技術。
世事難料,2000年起網絡泡沫迅速破滅,各大搜索引擎要麽遭人收購,要麽推遲上市,所有使用人氣質量定律的搜索引擎公司都未能幸免。那麽,搜索引擎的出路到底在哪兒?
第三定律 自信心定律
人氣質量定律解決的還是壹個技術層面的問題,然而搜索引擎從誕生的那壹天起,從來就不是壹個純技術現像,它融合了技術,文化,市場等各個層面的因素。解決搜索引擎公司的生存和發展問題需要搜索引擎的第三定律--自信心定律。
1998年的時候,沒有太多的人拿壹家遠在矽谷500英裏以外,剛剛成立的,叫作GoTo.com(現已更名為Overture)的公司當回事兒。它不過是買了壹個搜索引擎的技術服務,然後再向那些網站的擁有者們拍賣他們網站在GoTo檢索結果中的排名,誰付的錢多,誰的網站就排在前面,而且付費是根據網民點擊該網站的情況來計算的,僅僅在搜索結果中出現並不需要付費。這就是自信心定律的最早實踐者!根據這壹定律,搜索結果的相關性排序,除了詞頻統計和超鏈分析之外,更註重的是競價拍賣。誰對自己的網站有信心,誰就排在前面。有信心的表現就是願意為這個排名付錢。需要聲明的是,自信心定律也是我自己給這壹模式起的名字,以前的文獻中並沒有人這樣總結過。
今天,在網絡業壹片蕭條,那斯達克風聲鶴唳的時候,GoTo卻如日中天,市值高達13億美金,收入高達雅虎總收入的35%。反觀門戶網站,有哪壹個能從它們的搜索引擎服務中賺出總收入的三分之壹呢?究其原因,就是因為GoTo最早實踐了搜索引擎的自信心定律。以前的搜索引擎都是靠CPM來收費的,而CPM是從傳統廣告業借鑒過來的,沒有考慮網絡媒體即時性,交互性,易競價的特點,而競價排名,點擊收費則是為網站擁有者直接提供銷售線索,而不是傳統意義上的廣告宣傳。自信心定律壹改過去搜索引擎靠CPM收錢的尷尬局面,開創了真正屬於互聯網的收費模式。