然後,它會按照壹定的搜索策略從隊列中選擇下壹個URL,重復上述過程,直到達到系統的某個條件。此外,爬蟲爬取的所有網頁都會被系統存儲起來,進行壹定程度的分析和過濾,並建立索引,供後期查詢和檢索;對於聚焦爬蟲來說,在這個過程中得到的分析結果也可能對後續的爬行過程給予反饋和指導。
網絡爬蟲(Web crawler,又稱web spider、web robot,在FOAF社區中,常被稱為web chaser),是壹種按照壹定規則自動抓取萬維網上信息的程序或腳本,在互聯網領域得到了廣泛的應用。搜索引擎利用網絡爬蟲抓取網頁、文檔,甚至圖片、音頻、視頻等資源,通過相應的索引技術組織這些信息,提供給搜索用戶查詢。