搜索引擎分類
搜索引擎按照工作方式可以分為三種,即全文搜索引擎、目錄索引搜索引擎和元搜索引擎。
全文搜索引擎
全文搜索引擎是名副其實的搜索引擎,有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等。作為國外的代表,百度作為國內的知名企業。它們都是基於從互聯網上提取的各種網站(主要是網頁)的信息,搜索與用戶的查詢條件相匹配的相關記錄,然後按照壹定的順序將結果返回給用戶,所以是真正的搜索引擎。
從搜索結果的來源來看,全文搜索引擎可以細分為兩種類型。壹種是有自己的索引器,俗稱“蜘蛛”程序或“機器人”程序,建立自己的web數據庫,搜索結果直接從自己的數據庫中調用,比如上面提到的七大引擎;另壹種是租用其他引擎的數據庫,以自定義格式排列搜索結果,比如Lycos engine。
搜索索引/目錄
目錄索引雖然有搜索功能,但嚴格意義上並不是真正的搜索引擎,只是壹個按目錄分類的網站鏈接列表。用戶不需要搜索關鍵詞,只需通過分類目錄就可以找到自己需要的信息。在目錄索引中最具代表性的是著名的雅虎Yahoo。其他著名的還有開放目錄項目(DMOZ)、LookSmart、About等。國內的搜狐、新浪、網易搜索也屬於這壹類。
元搜索引擎(元搜索引擎)
當元搜索引擎接受用戶的查詢請求時,它同時在其他引擎上進行搜索,並將結果返回給用戶。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等。(元搜索引擎列表),而有代表性的中文元搜索引擎就是搜索引擎。在搜索結果排名方面,有的直接按照來源引擎對搜索結果進行排名,比如Dogpile,有的按照自己的規則對結果進行重新排列組合,比如Vivisimo。
除了以上三類發動機,還有以下幾種非主流形式:
聚合搜索引擎:如HotBot在2002年底推出的引擎。這個引擎類似於元搜索引擎,但不同的是,它不是同時調用多個引擎進行搜索,而是用戶從提供的四個引擎中進行選擇,所以稱之為“聚合”搜索引擎更準確。
門戶搜索引擎:AOL搜索和MSN搜索雖然提供搜索服務,但既沒有分類目錄,也沒有web數據庫,搜索結果完全來自其他引擎。
全鏈接免費(FFA):壹般這類網站只是簡單的滾動鏈接項,少數有簡單的分類目錄,但規模遠小於雅虎等目錄索引。
因為以上網站都是為用戶提供搜索和查詢服務的,所以為了方便起見,我們通常稱之為搜索引擎。
搜索引擎的基本工作原理
了解搜索引擎的工作原理,對我們日常的搜索應用和網站提交推廣會有很大的幫助。
全文搜索引擎
在搜索引擎分類部分,我們提到了全文搜索引擎從網站中提取信息建立web數據庫的概念。搜索引擎有兩種自動信息收集功能。壹種是定期搜索,即每隔壹段時間(比如Google壹般是28天),搜索引擎主動發出“蜘蛛”程序,搜索壹定IP地址範圍內的互聯網站。壹旦發現新網站,它會自動提取網站信息和網址,並將其添加到自己的數據庫中。
另壹種是提交網站搜索,即網站所有者自願向搜索引擎提交網站地址,搜索引擎在壹定時間內(2天到幾個月不等)向妳的網站發送“蜘蛛”程序,掃描妳的網站,並將相關信息存儲在數據庫中供用戶查詢。因為搜索引擎的索引規則這幾年變化很大,主動提交網址並不能保證妳的網站能進入搜索引擎數據庫,所以目前最好的辦法就是獲取更多的外部鏈接,讓搜索引擎有更多的機會找到妳,自動收錄妳的網站。
當用戶通過關鍵字搜索信息時,搜索引擎會在數據庫中進行搜索。如果找到符合用戶要求的網站,就會采用特殊的算法——通常是根據網頁中關鍵詞的匹配度、出現的位置/頻率、鏈接的質量等。-計算每個網頁的相關度和排名等級,然後根據相關度將這些網頁鏈接按順序返回給用戶。
搜索索引/目錄
與全文搜索引擎相比,目錄索引有許多不同之處。
首先,搜索引擎屬於自動網站檢索,而目錄索引完全靠人工操作。用戶提交網站後,目錄編輯會親自瀏覽妳的網站,然後根據壹套自定義的評價標準甚至編輯的主觀印象來決定是否接受妳的網站。
其次,搜索引擎收錄壹個網站時,只要網站本身不違反相關規則,壹般都能登錄成功。但是目錄索引對網站的要求要高很多,有時候即使妳登錄很多次也不壹定能成功。尤其像雅虎!這樣的超級索引就更難登錄了。(由於登錄雅虎!是最難的,是網絡營銷的必爭之地,所以我們後面會在專門的空間介紹登錄雅虎的技巧。
另外,在登錄搜索引擎的時候,我們壹般不用考慮網站的分類,但是在登錄目錄索引的時候,壹定要把網站放在最合適的目錄裏。
最後,搜索引擎中各個網站的相關信息都是從用戶的網頁中自動提取出來的,所以站在用戶的角度,我們有了更多的自主權;但是目錄索引需要妳手動填寫網站信息,有各種限制。更何況,如果工作人員認為妳提交的目錄和網站信息不合適,他可以隨時調整,當然不需要事先咨詢妳。
目錄索引顧名思義就是將網站存放在相應的目錄中,用戶在查詢信息時可以選擇關鍵詞搜索或者根據分類目錄逐層搜索。如果按關鍵詞搜索,返回的結果和搜索引擎是壹樣的,網站也是按信息相關程度排列的,但人為因素更多。如果按層次目錄搜索,網站在壹個目錄中的排名是由標題字母的順序決定的(也有例外)。
目前,搜索引擎和目錄索引有相互融合、相互滲透的趨勢。原來壹些純全文搜索引擎現在也提供目錄搜索。例如,Google借用了Open Directory目錄來提供分類查詢。就像雅虎!這些舊目錄索引通過與谷歌等搜索引擎合作,擴大了搜索範圍。在默認搜索模式下,有些目錄搜索引擎會先返回自己目錄中匹配的網站,比如國內的搜狐、新浪、網易等。而其他的則默認為網絡搜索,比如雅虎。
搜索引擎第三定律
今天,是搜索引擎結束過去,開辟未來的時候了。為了闡明我所說的第三定律,我們先來回顧壹下第壹和第二定律。
相對論第壹定律
聽起來像是學術論文。的確,就連第壹定律和第二定律以前都沒提過,但第壹定律和第二定律的內容在業界和學術界早就被認可了。其實這個第壹定律早在互聯網出現之前就被學術界廣泛研究過,也就是所謂的關聯定律。當時這個領域叫信息檢索,或者叫信息檢索,有的叫全文檢索。
當時的相關度是基於詞頻統計的,即用戶輸入搜索詞,搜索引擎去尋找那些在文章(網頁)中出現頻率高、位置重要的搜索詞,再加上搜索詞本身的常用度的壹些權重,最後排出壹個結果(搜索結果頁面)。早期的搜索引擎結果排名是基於本文第壹定律,如Infoseek、Excite、Lycos等。他們基本沿用了互聯網時代之前的學術研究成果,行業專註於處理大流量、大數據,但相關性排名沒有突破。
其實詞頻統計根本不使用任何網絡相關的特征,是前網絡時代的技術。而網絡時代的主要文檔都是以網頁的形式存在的,幾乎每個人都可以在網上隨意發布各種內容。詞頻相同的兩個網頁質量可以相差很遠,但是根據搜索引擎第壹定律,這兩個網頁的排名應該是壹樣的。為了在壹些搜索結果中排名靠前,很多網頁內容制作者絞盡腦汁,在自己的頁面上堆砌關鍵詞,搜索引擎防不勝防,深受其害。這種情況在1996開始改變。
第二定律,流行和質量定律
1996年4月,去拉斯維加斯開信息檢索學術會議。會議的內容就像拉斯維加斯的天氣壹樣無聊。但我遠離公司,卻難得有機會靜下心來認真思考問題。在聽壹個無關緊要的論文講座時,我突然把科學引文索引的機制和網頁上的超鏈接聯系起來——感謝北大,她在我大三的時候教我科學引文索引的機制,恐怕美國沒有哪所大學會在妳本科的時候教。
科學引文索引的機制,說白了就是誰被引用的次數多,誰就被視為權威,論文就是好論文。這個思想移植到互聯網上,就是誰的網頁鏈接次數多,那個網頁就被認為是高質量的,受歡迎的。再加上相應的鏈接文本分析,可以用在搜索結果的排名上。這就引出了搜索引擎的第二定律:人氣質量定律。根據這壹規律,搜索結果的相關性排名並不完全取決於詞頻統計,更多的是取決於超鏈接分析。
我意識到這是壹個突破口,回去後很快總結了自己的思路。1996年6月,我申請了這壹領域的美國專利。1999年7月6日,美國專利商標局批準了以我為唯壹發明人的第5920859號專利。大約在1996年底,斯坦福大學計算機系的兩個研究生想到了同樣的解決方案。後來,他們創建了壹個名為谷歌的搜索引擎。谷歌網站仍然說他們的技術正在申請專利。我想知道美國專利局是否會再次授予這樣的專利。不管怎樣,超鏈接分析的方法從1998年開始逐漸被各大搜索引擎所接受。因為鏈接是網絡內容的壹個根本特征,此時的搜索引擎開始真正使用網絡時代的檢索技術。
世事難料。從2000年開始,互聯網泡沫迅速破裂,各大搜索引擎要麽被收購,要麽遲遲未能上市,所有使用人氣質量法的搜索引擎公司也未能幸免。那麽,搜索引擎的出路在哪裏?
第三定律,自信定律
大眾質量法還解決了壹個技術問題。然而,搜索引擎從誕生之日起,就從來不是壹個純粹的技術現象,它融合了技術、文化、市場等多種因素。解決搜索引擎公司的生存發展問題,需要搜索引擎第三定律——自信定律。
1998年,沒有多少人把壹家距離矽谷500英裏的新成立的名為GoTo.com(現改名Overture)的公司當回事。它只是購買壹個搜索引擎的技術服務,然後把他們網站在GoTo搜索結果中的排名拍賣給那些網站的所有者。誰的付費多排名第壹,付費是根據網民點擊網站的情況來計算的,只出現在搜索結果中是不需要付費的。這是自信法則最早的實踐者!根據這個規律,搜索結果的相關性排名除了詞頻統計和超鏈接分析之外,更註重競價拍賣。誰對自己的網站有信心,誰就排第壹。自信的標誌是願意為這個排名付費。需要聲明的是,自信定律也是我自己給這個模型起的名字,之前的文獻中沒有人總結過。
在互聯網行業不景氣,納斯達克如日中天的今天,GoTo如日中天,市值高達6543.8+03億美元,營收高達雅虎總營收的35%。另壹方面,哪家門戶網站可以從他們的搜索引擎服務中獲得總收入的三分之壹?原因是後藤首先踐行了搜索引擎自信法則。以前搜索引擎是靠CPM來收費的,而CPM是借鑒傳統廣告行業,沒有考慮網絡媒體即時性、互動性、易競價的特點。但是競價排名和點擊收費直接為網站主提供銷售線索,而不是傳統意義上的廣告。自信法則改變了過去搜索引擎靠CPM收錢的尷尬局面,開創了真正屬於互聯網的收費模式。