當前位置:律師網大全 - 專利申請 - 基於大數據的視覺搜索應用與組織模式研究

基於大數據的視覺搜索應用與組織模式研究

基於大數據的視覺搜索應用與組織模式研究

當前視覺搜索已成為信息科學領域的前沿課題,主要用於分析和研究現實世界實體屬性、行為、事件與視覺大數據資源之間的發展規律,針對視覺大數據資源的獲取、組織、描述與利用問題,研究視覺資源及其時空關聯信息之間的價值發現與資源整合的內在機理

當前視覺搜索已成為信息科學領域的前沿課題,主要用於分析和研究現實世界實體屬性、行為、事件與視覺大數據資源之間的發展規律,針對視覺大數據資源的獲取、組織、描述與利用問題,研究視覺資源及其時空關聯信息之間的價值發現與資源整合的內在機理,解決其多維關聯與協同融合問題,進而實現視覺大數據資源的有效整合、知識發現與實時交互。

基於此,本研究從宏觀與中觀角度,從信息科學視角下視覺搜索研究的起源著手,對其發展歷程、概念與特點進行描述,圍繞其理論與應用研究的幾個關鍵問題展開討論,並簡要探討其最新研究進展及應用。

1、大數據環境下視覺搜索的發展歷程及特點

1.1 問題的提出

視覺搜索不是壹個新名詞,它最早出現於心理學與生理學領域,用於描述人們通過視覺通道在特定區域內檢測某特定目標是否出現或出現後確定其位置的行為。如在地圖上找某大學所處位置、在食堂內點菜、在書架上找書或在圖書館內找人等。在現實世界中,人們經常需要利用視覺搜索在復雜物理環境中獲取有價值的信息,來決定接下來的語言和行為。因此,視覺搜索理論受到心理學家和人因(HumanFactors)學家的廣泛關註,大量研究集中在對人類視覺認知、生理反饋機理的理解與表達上,並總結出了許多應用型和理論型知識。正是由於視覺搜索的可用性和有效性,使得許多工作、行業、領域都離不開這壹生理行為。

相關基礎理論和關鍵技術的不斷發展與完善,促使傳統視覺搜索應用不斷向信息化、技術化和網絡化方向發展,如何將傳統視覺搜索行為轉換成“所見即所知”式視覺搜索模式,這壹難題逐漸擺在了人們面前。與此同時,網絡環境、信息技術、計算性能、存儲空間、數據規模與軟硬件設施等方面的飛速提升,也為客觀物理世界與虛擬網絡空間之間建立起密不可分的關聯關系,使視覺搜索技術的實現成為可能。人們可以方便快捷地采集客觀物理世界中的視覺對象,從互聯網中獲取與之相關的關聯信息。

1.2 視覺搜索發展歷程及發展趨勢

近幾年來,隨著大數據環境的逐步完善和大數據技術的迅速發展,關於視覺資源整合與視覺搜索研究的呼聲越來越大。Nature和Science分別於2008年、2011年出版了大數據專題研究,提出圖像、視頻與用戶交互信息是未來大數據的重要組成部分。2009年,Stanford University的Griod、Chandrasekhar等學者將視覺搜索理論引入到信息檢索領域,提出Visual Search、Mobile Visual Search等概念,舉辦了第壹屆移動視覺搜索研討會,並對其體系結構、應用與服務模式等問題進行了探討。2010年,Google技術研究部前主管Norvig在Nature上發表的專題論文2020Visions中指出,“文本、圖像和視頻等視覺資源及用戶交互信息、傳感信息的有機融合,會給搜索引擎帶來巨大挑戰,如何對視覺搜索結果進行資源深度整合將會成為Google未來10年面臨的最大挑戰。”同年,北京大學高文、黃鐵軍與段淩宇等將其引入國內,舉辦了第二屆移動視覺搜索研討會,並圍繞其關鍵技術、體系結構、視覺資源組織與描述方法、視覺資源標準化與視覺知識庫建設等問題展開了研討。2012年,這壹理論與技術迅速被中國計算機學會所接受,認為將視覺搜索與增強現實技術相結合的信息檢索模式,將是繼搜索引擎之後的新壹代互聯網服務範式。隨後,張興旺、朱慶華等嘗試將其引入數字圖書館領域,並圍繞相關理論與應用模式展開了研究。

根據視覺搜索研究的發展軌跡來看,國內關於視覺搜索研究總體仍處於探索與嘗試階段,研究軌跡已基本跨過早期理論性嘗試過程,正步入中期技術性和應用性探索階段。尤其是在我國科學技術部於2011年啟動國家重點基礎研究發展計劃(“973”計劃)“面向公***安全的跨媒體計算理論與方法”,對跨媒體視覺資源的統壹表示和建模方法、關聯推理和深度挖掘、綜合搜索和內容合成等關鍵科學問題進行研究之後,國內相關研究步入快速發展階段。自2015年以來,視覺搜索理論與應用研究的重要性和必要性更加凸顯,國務院2015年9月印發的《促進大數據發展行動綱要》提出,要充分利用大數據,提升領域數據資源的獲取和利用能力,推動各類數據融合和資源整合。國務院2015年7月印發的《關於積極推進“互聯網+”行動的指導意見》提出“構建包括語音、圖像、視頻、地圖等數據的海量訓練資源庫,加強人工智能基礎資源和公***服務等創新平臺建設”。國家自然科學重大研究計劃“大數據驅動的管理與決策研究”認為“大數據價值的產生機理和轉換規律具有高度的應用領域依賴性”。科技部2016年發布的《關於發布國家重點研發計劃精準醫學研究等重點專項2016年度項目申報指南的通知》的“雲計算和大數據重點專項”中更是明確將“面向大範圍場景透徹感知的視覺大數據智能分析關鍵技術”列為重點研究內容之壹,要求對視覺語義建模、視覺對象的時空定位與搜索、跨場景數據關聯技術等展開研究。

1.3 視覺搜索研究對象及視覺大數據資源特點

視覺搜索的研究已逐漸發展成為信息檢索領域的主要研究趨勢,到目前為止,關於視覺搜索的定義尚未形成統壹的認識,但從信息檢索角度來看,大家對它的普遍理解是指將客觀物理世界中的視覺資源作為檢索對象,通過互聯網去獲取關聯信息的壹種信息檢索方式。它是以視覺大數據資源及其關聯信息為研究對象,以視覺大數據資源的獲取、分析、組織、理解和表達方法為主要研究內容,以信息技術與方法為主要研究手段,以發現視覺大數據資源蘊含的知識價值和拓展其利用能力為主要研究目標的壹種綜合性的應用型前沿領域。它主要針對的是當前大數據環境下海量、多元異構、動態無序和高速進化的視覺資源的分析和利用問題,重點研究的是如何充分利用當前飛速發展的信息技術來解決視覺大數據資源的理解和表達,如何有效地實現視覺搜索,如何利用視覺搜索技術來從海量視覺大數據資源中發現新的知識。

毫無疑問,未來是壹個智慧(或稱之為“互聯網+”)的時代。智慧地球、智慧城市、智慧圖書館等理論與應用的迅速發展,給視覺搜索理論與應用研究提供了“沃土”。“互聯網+”時代所衍生的數據規模的劇增,文本、圖像、音視頻、用戶交互信息與各種傳感信息會成為“數據海洋”的主流,而這些數據來源中超過80%來自於人類視覺通道,現階段把握“互聯網+”時代信息檢索和知識服務未來發展脈絡的最重要手段可能是視覺搜索。

視覺大數據資源因其包含文本、圖像、音視頻與用戶觀看記錄等復雜無序、動態變化的時空信息,使其成為數字圖書館中內容最豐富的信息載體,並將會成為“互聯網+”時代最為重要的信息表達和信息傳播媒介。而以視覺大數據資源為研究對象的視覺搜索,由於前者所處知識空間的知識實體與知識價值在時間、空間和屬性三個方面的自有特性,使得視覺搜索也呈現出復雜無序、動態變化和時空語義關聯等特性,同時也需要對視覺大數據資源的形式化表達、系統化組織、結構化描述與時空關聯關系分析方法等進行研究。由此可得知視覺大數據資源主要具有以下特征:

視覺大數據資源包含文本、圖像、視頻、用戶觀看信息及用戶交互信息等時空信息,並且它所包含的視覺對象、事物內容、事件過程在時間、空間、語義等方面具有時序或時空關聯關系。

視覺大數據資源具有時空語義關聯、動態變化、數據規模大和結構復雜等特點,這些基於視覺對象、事物內容、事件過程的動態變化可以用時空語義關聯進行表達和描述,其獲取、組織和描述過程可以用機器語言來進行表達,通過視覺對象、事物內容、事件過程之間的語義關聯映射,建立視覺大數據資源的時空語義關聯關系。

視覺大數據資源具有數據規模大、結構復雜、類型多元、多維尺度關聯和縱深緯度高等特性,可根據視覺大數據資源的時空語義關系建立對應的尺度關聯機制。針對不同尺度、縱深緯度的視覺大數據資源的時空關聯關系,可實現視覺對象、事物內容、事件過程之間的多維尺度轉換和重置,進而實現視覺大數據資源的語義關聯關系分析。

視覺大數據資源能提供基於視覺資源內容來理解視覺對象行為,根據視覺對象的時空語義關聯關系建立起發展趨勢模型,並根據有效組織、理解和描述來預測某特定事物在某特定階段將可能發生的行為態勢。

可針對視覺大數據資源的獲取、組織、理解和描述問題,來實現用戶與視覺大數據資源之間的實時交互、反饋和視覺對象知識庫的構建。根據視覺對象的相似行為特征、時空關聯關系和實時交互結果,來幫助人們制作、生產、運營和消費新的視覺資源,滿足數字圖書館用戶的多元化知識服務需求。

2、大數據環境下視覺搜索的應用與組織模式

視覺大數據資源經過組織、分析、處理和整合,並建立基於特定領域的數字圖書館視覺搜索平臺之後,才能為用戶提供大數據知識服務。不同學科、領域的視覺搜索模式對視覺大數據資源的獲取、組織、處理與整合模式會有所不同。正因如此,當前大部分應用是從知識服務與信息檢索角度,建立起領域導向的視覺大數據資源整合平臺,通過視覺搜索來對視覺大數據資源進行有效管理與利用,並按照特定學科、專業和領域的知識服務需求來提供服務,從而滿足各類大數據知識服務需求。

2.1 基於深度學習的視覺搜索工業應用模式

傳統視覺搜索研究主要是先采用人工標註方法對視覺資源的底層特征進行標註後,再采用機器學習方法來解決視覺資源之間的語義鴻溝、異構鴻溝與語義關聯之間的問題。基於人工標註的視覺大數據資源整合與利用方法,需要標註者擁有豐富的專業領域知識和工業應用經驗,需耗費大量的時間和人力成本,且精確性低。與對視覺資源特征進行人工標註方法不同的是,深度學習壹般都是通過對視覺資源特征進行多層神經網絡訓練後,進行視覺特征學習,進而獲取到特征提取更合理、區分性更強的視覺特征理解和描述。大量研究證明通過深度分析方法所提取到的視覺特征在圖像分類與識別、視覺場景識別、智能監控、語音識別、知識圖譜構建等應用領域都獲得過成功。視覺資源的顯著性特征提取和分割方法,能夠采用模擬人類視覺系統和生理認知體系來提取視覺資源中顯著性特征區域。目前,性能相對最好的視覺資源特征提取方法在公開的視覺大數據資源數據集中的顯著性特征檢測準確率在95%左右,視覺資源前景特征分割準確率將近92%,這壹比例在近幾年全球性各類大規模視覺資源分析與識別比賽中,仍然在不斷增加。比如,Google研究組在大規模視覺識別挑戰賽(ILSVRC)中,采用改進的深度卷積網絡Google Net將圖像識別準確率提升到93%;Google小組在微軟圖像標題生成挑戰賽(MS COCO ICC)中,采用基於深度分析的圖像特征提取方法獲得冠軍;悉尼科技大學與卡耐基梅隆大學、微軟亞洲研究院和浙江大學在THUMOS比賽中,均將深度分析方法與視覺對象運動特征結合起來對視覺資源進行動作識別,分別獲得前三名。

傳統學術研究的理論成果往往需要很長壹段時間發展,才能逐漸走向成熟,並進入到實際的工業應用中去。但無論是深度學習,還是視覺搜索,它們都擁有著極強的工程理論模型。壹方面,它們在被學術界關註和研究的同時,也被工業領域所密切關註和嘗試;另壹方面,由於工業領域(如Google、百度、微軟等)早就擁有著大規模的視覺大數據資源,且壹直活躍在諸多信息科學領域的研究前沿,在很多領域,它們相較於學術界更有優勢。如Google的知識圖譜Knowledge Graph,Google Now與Google街景地圖,微軟的語音助手Cortana,愛奇藝的愛奇藝大腦,Facebook的Graph Search等均屬於工業界視覺搜索較為經典的應用案例。事實上,國外工業界各大公司,如Google,Facebook,Microsoft等對視覺搜索不僅僅只是開展大量的研究,甚至還在內部成立了專門研究機構,國內的百度、華為、騰訊和阿裏巴巴也不例外。

2.2 基於知識計算的視覺搜索知識服務模式

數字圖書館領域對視覺搜索理論與應用展開研究的壹個重要目的,就是為高校和科研機構的研究人員提供嵌入式協作化的知識服務,而數字圖書館視覺搜索平臺是將海量視覺大數據資源與平臺提供的視覺大數據資源的組織、分析和處理功能嵌入到知識服務過程中。

視覺大數據資源整合與利用是當前國內外人工智能、信息檢索領域的研究熱點,擁有非常廣泛的應用與研究前景。事實上,圖像搜索作為視覺搜索的壹個研究分支方向,近幾年來,國內已有很多個人(如中國科學院高科、北京大學高文與黃鐵軍、南京大學朱慶華)、機構(如浙江大學、清華大學、北京大學、中國科學院計算所等)、企業(如愛奇藝、百度、騰訊、360、搜狗等)正在做與之相關的研究,並且很多已經推出了基於內容的圖像搜索平臺,為用戶提供圖像搜索服務。而美國的麻省理工學院、加州大學伯克利分校、伊利諾伊大學和英國的牛津大學等相關研究工作開始得更早,也研發出了相應的基於圖像內容的圖像搜索系統。

在以上所有相關研究中,它們都具有壹個典型的研究特征:研究目的是為了解決視覺搜索的應用問題,而對應的視覺搜索模式大部分是基於知識計算。由於視覺搜索需要組織、分析和處理的對象主要包括文本、圖像、視頻等各類蘊含大量價值的視覺資源,因此,如何從視覺大數據資源中獲取有價值的知識,就成為國外學術界和工業界壹直以來的研究熱點。以發掘視覺大數據資源中蘊含的豐富的、復雜關聯的知識為目的的知識庫稱之為視覺對象知識庫。目前,全球基於文本、圖像、音視頻等視覺資源的各類知識庫有不少於60種,而基於這些視覺對象知識庫的具體應用案例和系統平臺也有幾百種。其中,比較有代表性的應用案例有維基百科的DBpedia(2014版中包含8.7萬部電影、12.3萬張唱片、45萬個物件等)、Google的知識圖譜Knowledge Graph(包括地標、城市、人名、建築、電影、藝術作品等5億個搜索結果實體與350億條關聯知識條目)、Facebook的Graph Search(包含10億名用戶、2400億張圖像、10000億次頁面訪問量等)等。

借助視覺搜索的相關理論與技術,開展對海量、異構、多元的視覺大數據資源的研究,不僅可豐富信息檢索的外延和內涵,而且可以有效地解決當前數字圖書館所面臨的“大數據、小知識、小服務”的瓶頸,具有壹定的應用價值和現實意義。

2.3 基於語義分析的視覺內容關聯組織模式

從已有研究來看,視覺搜索的研究對象大部分集中在文本與圖像上,其中圖像搜索是學者們著力解決的重點方向。視覺搜索研究可分為3個階段:壹是20世紀70年代末期開始的基於文本/元數據的圖像搜索。這壹方式主要通過人工標註元數據對圖像進行描述,來實現對圖像的信息檢索功能,缺點是元數據標註費時費力,描述標準與反饋內容不完整,且容易有太多主觀色彩。二是20世紀90年代開始提出基於視覺內容的圖像搜索方法。這壹方式其本質是采用人工構造圖像底層視覺特征的方式來進行圖像相似性比較,進而實現圖像搜索,缺點是對圖像底層特征和高層語義之間存在的語義鴻溝問題沒有得到較好解決。三是21世紀初期提出的基於深度學習的圖像搜索方法。社交網絡與用戶生成內容成為網絡數據的主要來源,利用用戶標簽對圖像語義進行組織、表達和理解成為研究主流,深度學習方法由此融入到相關領域。

與圖像搜索相比,視頻表達和分析則是視覺搜索領域相對較新的研究領域。視頻由大量圖像幀組成,且圖像幀之間有較為緊密的時空與語義關聯關系,這對視覺搜索技術要求更高。但由於深度學習在文本與圖像搜索領域所取得的成功,學者們開始借助於深度學習框架,對視頻進行組織、理解和描述,尤其是在視頻特征提取這壹關鍵環節采取了以下幾種方法:壹是視頻靜態關鍵幀特征描述。由於視頻是由大量圖像幀按時序與語義關聯組成,故可采用深度學習方法對靜態視頻幀(即圖像關鍵幀)進行特征學習。在具體應用中,壹旦確定合理的靜態關鍵幀提取和編碼方式,也能形成較好的視頻描述效果。二是動態視頻時序特征描述。有學者曾提出密集軌跡方法對視頻進行分析,取得了不錯效果。三是前面兩種方法的有機結合。牛津大學的Simonyan等提出采用時間和空間深度神經網絡來對視頻進行分析,時間軸輸入的原始視頻,用於對視頻中的視覺對象進行識別,空間軸輸入的時序關聯場,用於對視頻中視覺對象的動作及其軌跡進行識別。

目前國內外也有大量針對視覺內容分析與表達方面的競賽,比如2013年美國佛羅裏達大學組織開展的THUMOS比賽,就對海量視覺數據集中異構無序的視覺資源進行分析和理解,該項賽事隨後每年都會開展相關研究。國內外許多高校、科研機構都積極參與到該項賽事中,如清華大學、浙江大學、香港中文大學、卡耐基梅隆大學、悉尼科技大學等。美國國家標準與技術研究所2011年組織開展的TRECVID比賽,針對大規模視覺數據集中復雜視覺資源中事件監測問題展開研究。近幾年來,該項賽事也壹直在圍繞著這個主題開展相關研究,國內許多高校,如復旦大學、浙江大學、北京理工大學與同濟大學等,在這項賽事中也獲得了壹定成績。

目前雖然在視覺大數據資源的組織、分析、理解和利用方法上有很多研究成果,但這些成果最終目的是應用於視覺搜索。近年來壹系列研究對於視覺搜索及其在各行業、領域的應用與推廣工作起到了積極作用,這對於數字圖書館領域而言,是壹個積極信號。

3 大數據環境下視覺搜索研究的5個核心問題

盡管視覺搜索已經獲得了工業界和學術界(包括數字圖書館領域在內)的高度關註,但目前在國內並未得到廣泛應用及推廣,主要原因是由於相關技術與應用產品尚未完全成熟,存在著視覺搜索性能不夠理想或不夠穩定、用戶體驗質量不佳、應用局限性較強等問題,圍繞這些問題,就需要從視覺搜索研究基礎理論與技術角度來解決。從數字圖書館視覺搜索模式構建流程[1]來看,視覺搜索研究主要包括5個核心問題,分別描述如下。

視覺大數據資源的獲取與組織方法。互聯網環境下視覺大數據資源的存在形式是動態無序和異構離散的,視覺資源的生產和發布是動態變化的。視覺資源所蘊含的信息內容都包含多個異構、復雜的信息主題,彼此之間存在語義時空關聯關系。而傳統基於人工標註的視覺資源標註方法往往不夠精確,因此,如何快速獲取到所需視覺資源,是視覺搜索應用的關鍵問題。而對與待搜索視覺對象無關的視覺資源的清洗過濾,以及視覺大數據資源的有效組織是視覺搜索應用的核心問題。

視覺大數據資源的理解與表達方法。為了在海量視覺大數據資源中找到與待搜索對象壹致的視覺資源,就需要從符合待搜索視覺資源的特征分析與理解出發,對其視覺內容進行多元化、結構化、多層次的深度理解和表達。

視覺大數據資源整合與交互方法。視覺搜索作為壹種信息檢索模式,其服務對象是用戶。對視覺大數據資源的獲取與組織、理解與表達的目的是為了給用戶提供智慧化、人性化的知識服務。因此,如何圍繞視覺大數據資源整合全生命周期進行多維度分析,從而滿足用戶對視覺大數據資源的多元化知識服務需求,也是視覺搜索研究能否成為現實的核心問題。

視覺對象知識庫建設及標準化問題。視覺搜索依賴於視覺對象知識庫的建設。基於高質量的視覺對象知識庫,用戶可快速將待搜索視覺對象與虛擬信息空間中的視覺大數據資源進行有效關聯,從而享受到數字圖書館提供的視覺搜索知識服務。同時,標準化問題也是視覺搜索應用能否順利應用和推廣的關鍵所在。

視覺搜索體系的安全與可靠性理論。無論在任何時候,網絡安全及系統可靠性問題是永遠無法回避的難題,視覺搜索亦不例外。在視覺搜索體系中,數據安全性與知識產權、用戶隱私權、系統可用性與可靠性等問題亦是視覺搜索能否得到有效推廣與應用的核心問題。

4 總結與展望

在“互聯網+”時代,信息服務正越來越廣泛地深入到用戶智慧化、個性化和嵌入式的知識服務需求中去,數字圖書館領域開始呼喚新型的殺手級信息檢索模式。視覺搜索是當前信息檢索領域發展的壹個重要前沿和創新突破口,在充分汲取國內外信息科學領域先進研究成果的基礎上,開展數字圖書館視覺搜索基礎理論與應用研究,不僅有望從理論上豐富數字圖書館知識服務研究思想與未來發展框架,也有利於揭示數字圖書館中視覺大數據資源價值的產生機理與轉換規律。

毫無疑問,人類正在向“‘互聯網+’時代”邁進,作為壹種技術與理念創新,視覺搜索必然符合壹般信息技術生存、發展與成熟基本規律,需要經歷技術誕生的萌芽期、飛速進步的發展期、迅速膨脹的高峰期、去泡沫化的低谷期、穩步發展的光明期和實際應用的高峰期6個階段。目前來看,國內外已有視覺搜索研究正處於發展期,存在著理論與技術交叉之後學科間的不平衡這壹問題。當前視覺搜索的理論、方法與技術研究主要集中在商業型視覺搜索應用上,對於產生視覺大數據資源的學術領域則關註較少。實際上,以科學研究、學科服務等學術領域為代表的視覺大數據資源,具有異於商業型應用的豐富內涵與獨特特征,只有全面掌握商業應用與學術領域的相關研究,才有助於建立更加科學、系統、合理的視覺搜索理論體系和應用框架。

  • 上一篇:環氧陶瓷塗層專利
  • 下一篇:濟寧大學教務處電話
  • copyright 2024律師網大全