WWW圖像搜索引擎需要為在Web上瀏覽過的圖像建立索引信息,能夠進行圖像分析和判別,為圖像加註釋,存儲抽取出的索引信息建立索引庫,理想的圖像搜索引擎還應該能支持基於內容的圖像檢索。 圖像識別方法:
1、自動查找圖形文:可以通過兩個HTML標簽,即IMG SRC和HREF來檢測是否存在可顯示的圖像文件,IMG SRC表示“顯示下面的圖像文件”,而HREF則表示“下面是壹個鏈接”,這兩種標簽經常導向壹個圖像文件。搜索引擎通過檢查文件擴展名來判斷鏈接的是否是圖像文件。如果文件擴展名是.GIF或.JPG,那它就是壹個可顯示的圖像。
2、人工幹預找出圖像並進行分類:由人工對網上的圖像及站點進行選擇。這種方法可以產生準確的查詢體系,但勞動強度太大,限制了處理圖像的數量。由於圖像不同於文本,需要人們按照各自的理解來說明其蘊含的意義,因此圖像檢索比起文本的查詢和匹配要困難得多。目前的圖像搜索引擎大多支持關鍵詞檢索和分類瀏覽兩種檢索方式,部分可提供可視屬性檢索,但也很有限。它們主要的檢索途徑有以下幾種:
a. 基於圖像外部信息:即根據圖像的文件名或目錄名、路徑名、鏈路、ALT標簽以及圖像周圍的文本信息等外部信息進行檢索,這是目前圖像搜索引擎采用最多的方法。在找出圖像文件後,圖像搜索引擎通過查看文件名或路徑名確定文件內容,但這取決於文件名或路徑名的描述程度。
b. 基於圖像內容特征描述:這是壹種語義層次的匹配。需要人工對圖像的內容(如物體、背景、構成、顏色特征等)進行描述並分類,給出描述詞。檢索時,將主要在這些描述詞中搜索妳的檢索詞。這種查詢方式是比較準確的,壹般來講可以獲得較好的查準率。但需人工參與,勞動強度大,因而限制了可處理的圖像數量,並且需要壹定的規範和標準,效果取決於人工描述的精確度。
c. 基於圖像形式特征的抽取:由圖像分析軟件自動抽取圖像的顏色、形狀、紋理等特征,建立特征索引庫,用戶只需將要查找的圖像的大致特征描述出來,就可以找出與之具有相近特征的圖像。這是壹種基於圖像特征層次的機械匹配,特別適用於檢索目標明確的查詢要求(例如對商標的檢索)。產生的結果也是最接近用戶要求的。但目前這種較成熟的檢索技術主要應用於圖像數據庫的檢索,在網上圖像搜索引擎中應用這種檢索技術還具有壹定的困難。